Proszę o wsparcie dla Krzysia Bulczaka, największego bohatera jakiego znam.

Archiwizacja Webu: oczekiwania użytkowników i rzeczywisty kształt archiwów

Być może trudność w przekonywaniu ludzi i instytucji do tego, że archiwa Webu są potrzebne, wynika z popularnego przeświadczenia, że archiwa te miałyby w pełni zabezpieczać wszystkie zasoby WWW:

Zasoby Webu są na wyciągnięcie ręki, w przeglądarce mogę wpisać dowolny adres, co to za problem, aby pobrać je wszystkie i zarchiwizować na wieczność na jakiejś ogromnej farmie serwerów…

Tymczasem żadne archiwum Webu nie jest w założeniu archiwum holistycznym – nawet prowadzone przez fundację Internet Archive archiwum Wayback Machine, gromadzące kopie stron z całego świata i wszystkich domen, zakłada ograniczony zasięg swojego repozytorium, choćby przez to, że zazwyczaj szanuje deklaracje w plikach robots.txt pozwalające na blokowanie indeksowania stron.

Nie da się zarchiwizować Webu w stosunku 1:1. Nie da się tego zrobić nawet w przypadku archiwizacji domen krajowych czy budowania archiwów badawczych (gromadzących wybrane zasoby do dalszej analizy naukowej), o ile metodą pozyskiwania zasobów jest crawling.

Ludzie mają jednak swoje wyobrażenia dotyczące archiwów: być może ich cyfrowa postać sugeruje możliwość uzyskania doskonałej kopii. Brenda Reyes Ayala w ciekawym projekcie badającym użytkowników usługi Archive-It spróbowała rozpoznać elementy składowe tego wyobrażenia. Archive-it to płatna usługa fundacji Internet Archive, pozwalająca instytucjom na zakładanie własnych, profilowanych archiwów Webu zawierających zasoby wybrane tematycznie lub o określonej proweniencji.

Badaczka chciała znaleźć odpowiedź na dwa pytania:

  1. jakie oczekiwania wobec archiwów Webu mają ich twórcy i użytkownicy?
  2. jak realia archiwów Webu mają się do oczekiwań wobec nich formułowanych

Odpowiedź na te pytania miała zostać wypracowana na podstawie analizy ticketów (zapytań) z systemu wsparcia użytkowników usługi Archive-IT. Fundacja Internet Archive udostępniła badaczce zanonimizowane pytania użytkowników.

Analiza problemów przez nich zgłaszanych potwierdziła wyraźny dystans między oczekiwaniami użytkowników archiwów Webu a kształtem tych archiwów:

  1. użytkownicy oczekiwali, że w archiwum znajdzie się dokładna, pełna kopia archiwizowanej witryny (liczba dokumentów/plików w oryginalnej domenie zgadzać się będzie z liczbą dokumentów/plików zabezpieczonych w archiwum). Tymczasem archiwum zawierać może zdecydowanie mniej lub zdecydowanie więcej zasobów niż wynikałoby to z oczekiwań użytkowników;
  2. użytkownicy oczekiwali, że w zbiorze znajdą się wyłącznie zasoby zgodne z zakładanym tematem/profilem archiwum, jednak ze względu na mechanizm crawlingu i naturę WWW nie da się tego zagwarantować;
  3. użytkownicy zauważali, że wiele zarchiwizowanych zasobów nie ma żadnej wartości z ich punktu widzenia. Archiwum zawierać miało wiele zbędnych plików/dokumentów, które nie mogły przydać się do niczego. Jednak te pozornie zbędne elementy (takie jak skrypty Java Script czy pliki CSS) mogą być konieczne do prawidłowego wyświetlania się zarchiwizowanych stron;
  4. użytkownicy oczekiwali, że istnienie w archiwizowanej domenie dodatkowych subdomen nie ma wpływu na to, co i w jaki sposób zostanie zarchiwizowane. Struktura domen/subdomen wpływa jednak w istotny sposób na ostateczny kształt zarchiwizowanej kopii.

Budowanie archiwów Webu, szczególnie tych o masowym zasięgu (np. archiwów domen krajowych) to także konieczność pracy edukacyjnej wśród potencjalnych użytkowników. Bez tego, wobec nierzeczywistych oczekiwań, trudno udowadniać społeczną użyteczność takich działań.

Reyes Ayala, Brenda. Web archives: A preliminary exploration of user expectations vs. reality, presentation, June 22, 2017; (digital.library.unt.edu/ark:/67531/metadc987462/: accessed September 1, 2017), University of North Texas Libraries, Digital Library, digital.library.unt.edu; crediting UNT College of Information.

Przeczytaj także:

Udostępnij na Twitterze | Udostępnij na Facebooku