Proszę o wsparcie dla Krzysia Bulczaka, największego bohatera jakiego znam.

“Archiwa – Kancelarie – Zbiory” o archiwizacji Webu

Niedawno ukazał się nowy numer rocznika “Archiwa – Kancelarie – Zbiory” (2019) – znajdziemy w nim dwa artykuły poświęcone archiwistyce webowej:

Wojciech Woźniak, Archiwizacja Internetu – próba podsumowania dotychczasowych prac i ustaleń:

Artykuł zawiera omówienie dotychczasowego stanu dyskusji nt. archiwizacji Internetu w Polsce na tle rozważań pojęciowych związanych z rozumieniem terminu „archiwizacja Internetu”. Omówiono kluczowe aspekty archiwizacji stron www z punktu widzenia archiwów państwowych oraz propozycje realizacji tego zadania sformułowane ze strony środowiska bibliotekarzy i archiwistów.

Artykuł Wojciecha Woźniaka pozwala poznać prawne i organizacyjne tło dyskusji o archiwizacji Webu w Polsce, zwraca przy tym uwagę na złożoność i niejednoznaczność pojęcia archiwizacji. Warto zapoznać się z przytaczaną przez niego definicją archiwizacji Internetu, wypracowaną w 2014 roku na spotkaniu przedstawicieli Naczelnej Dyrekcji Archiwów Państwowych i Biblioteki Narodowej (s. 82):

pod pojęciem archiwizacji Internetu rozumiane będzie działanie polegające na zbieraniu treści prezentowanych w Internecie na stronach WWW poprzez pozyskiwanie kodu stron Internetowych, przechowywanie tego kodu oraz jego udostępnianie na określonych zasadach, mające na celu zabezpieczenie w celach historycznych informacji prezentowanych w Internecie w danym okresie

Wydaje mi się, że w tej definicji pojawiają się zupełnie zbędne i ograniczające stwierdzenia, jest tam mowa np. o pozyskiwaniu kodu stron internetowych, co zmusza do zadania pytania, czy archiwizowane mają być tylko pliki HTML? Jakie są granice tego, czym jest strona WWW? Co z materiałami graficznymi albo streamingiem? Wkładanie szczegółów technicznych do ogólnych definicji jest chyba niepotrzebne – definicja archiwizacji Webu przygotowana przez IIPC w ogóle ich nie zawiera (jest tam mowa wyłącznie o gromadzeniu części (portions) World Wide Web.

Bartłomiej Konopa, Reborn digital i black box – wpływ procesu archiwizacji na zasób archiwów Webu:

W artykule podjęte zostały rozważania nad ogólną charakterystyką zasobów znajdujących się w różnorodnych archiwach Webu. Zrozumienie problemu postawionego w tytule wydaje się być kluczowe dla refleksji nad tym nowym rodzajem źródeł oraz wykorzystaniem ich w późniejszych badaniach. Użytkownik chcący zagłębić się w dawną Sieć musi wiedzieć, co przechowują tego rodzaju cyfrowe repozytoria i jaki jest charakter tych zbiorów. Problem ten został przedstawiony na dwóch płaszczyznach, które wynikają z dwóch etapów archiwizacji Webu – selekcji i gromadzenia. Pierwszy aspekt – teoretyczny zależy przede wszystkim od gromadzenia zasobów metodą harvestingu, czyli z wykorzystaniem crawlerów. Ich możliwości oraz ograniczenia przekładają się na to, co zostanie zarchiwizowane i jaka będzie tego postać. Należy odnotować fakt, iż prowadzi to do pewnego przekształcenia zasobów Sieci, a więc po zarchiwizowaniu nie będą już one dokładnie tym, czym były wcześniej. Drugi aspekt – praktyczny jest efektem selekcji, a więc wszystkich decyzji podejmowanych przez pracowników archiwum przed rozpoczęciem gromadzenia. Zaliczyć można do nich m.in. określenie celu i zakresu archiwizacji oraz wybór strategii pozwalających je realizować. W tekście przedstawione zostały dwie podstawowe metody – archiwizacja masowa oraz selektywna. Znaczącym utrudnieniem dla użytkowników archiwów Webu jest brak informacji dotyczący stosowanych kryteriów selekcji lub logów crawlera. Zasoby dawnej Sieci mogą stanowić pewnego rodzaju zagadkę, ponieważ nie zawsze można wskazać, co się w nich znalazło, a co nie, i jaka była tego przyczyna.

Przeczytaj także:

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Akceptowane są wyłącznie komentarze merytoryczne. Każdy komentarz podlega moderacji.

Udostępnij na Twitterze | Udostępnij na Facebooku