Proszę o wsparcie dla Krzysia Bulczaka, największego bohatera jakiego znam.

Ekspertymenty z historycznym Webem: badanie dostępności domen polskich czasopism z lat .90

Lista polskich czasopism elektronicznych (1998-1999)

Od 5 maja 1998 roku do 29 grudnia 1999 roku Wiktor Gawarecki z Instytutu Bibliotekoznawstwa i Informacji Naukowej UJ rozwijał swoją Listę polskich czasopism elektronicznych oraz elektronicznych odpowiedników periodyków drukowanych. W kwietniu 1999 roku lista została włączona do bazy wyszukiwarki/katalogu serwisu Reporter (dziś już nieistniejącego).

Zazwyczaj elementem decydującym o dodaniu danego serwisu czy strony WWW do “Listy czasopism…” była cecha charakteryzująca czasopisma ukazujące się na tradycyjnym rynku prasowym – a więc periodyczność ich ukazywania się. Dlatego też wiele serwisów internetowych, mimo ich popularności i jakości, nie znajduje się w moim spisie, gdyż są to właśnie strony, serwisy WWW, a nie czasopisma w znaczeniu, o którym wspomniałem wcześniej. Mam świadomość tego, że wielu użytkowników, a zwłaszcza teoretyków Internetu nie zgodzi się z takim sposobem rozumowania i postępowania, ale taki niech będzie mój mały przyczynek do charakterystyki zjawiska, jakim jest czasopismo elektroniczne. [źródło]

W perspektywie pracy z polskim historycznym Webem lista czasopism elektronicznych z 1998-1999 roku to bardzo wartościowy zasób. Dużym wyzwaniem jest brak indeksów, pozwalających budować listy URLi do pobrania i zarchiwizowania lub przynajmniej umożliwiających sprawdzenie dostępności konkretnych stron w Internet Archive. Dzięki temu, że wciąż istnieje oryginalna historyczna lista Gawareckiego, wiemy, jakie polskie tytuły były dostępne online pod koniec lat 90. i możemy zbadać, co się z nimi działo aż do dziś.

Podstawowe odkrywanie strat

Pierwszym krokiem, który należałoby wykonać, to automatyczne pobranie wszystkich linków, tytułów i opisów z oryginalnej strony Gawareckiego. Można to zrobić bardzo prosto i szybko, korzystając z usługi / serwisu import.io. Następnie wyeksportowaną do pliku .csv listę URLi należy sformatować za pomocą wyrażeń regularnych, ucinając wszystkie nazwy protokołu (http://) oraz wszystkie znaki po pierwszym wystąpieniu /. Otrzymamy w ten sposób zestaw 1356 domen (a właściwie FQDN – jednoznacznych nazw wskazujących na określone hosty posługujące się własnymi adresami IP). Czym się różni host od domeny? Domeny w symboliczny, zrozumiały dla człowieka i uporządkowany sposób reprezentują określone hosty, przy czym do jednego hostu przypisanych może być wiele domen.

Teraz należałoby automatycznie zmapować nazwy domen na konkretne adresy IP. W trakcie analizy okaże się, że część z nich jest dziś nieosiągalna – będzie to wyraźna informacja o tym, że wybranych czasopism internetowych dostępnych pod koniec lat 90. nie można już pobrać z oryginalnej lokalizacji (to, czy są dostępne np. w Internet Archive, to już inna sprawa). Oczywiście sama dostępność historycznych domen w żaden sposób nie gwarantuje oryginalnej zawartości serwisów – jest bardzo prawdopodobne, że duża część z nich zawiera dziś zupełnie inne treści niż te z lat 1998-1999. Niektóre domeny mogą też dziś jedynie przekierowywać do innych zasobów lub w ogóle nie udostępniać żadnych treści.

Podstawowe badanie dostępności domen pozwala nałożyć na historyczną listę Wiktora Gawareckiego pierwszy filtr. Kolejnym krokiem może być zebranie nagłówków http z wszystkich dostępnych adresów URL, co dałoby dostęp do bardziej konkretnych informacji o losie analizowanych zasobów.

Póki co naszym celem jest zbadanie dostępności domen. Można zrobić to za pomocą komendy ping lub narzędzi takich jak IP bulk lookup tool, przy czym mają one zazwyczaj jakieś ograniczenia co do liczby sprawdzanych adresów.

Badanie dostępności historycznych domen

W tym eksperymencie skorzystałem z języka R i programu RStudio. Funkcja nslookup dostępna w pakiecie curl pozwala na sprawdzenie IP dowolnej domeny. W przypadku braku połączenia generowany jest błąd, który wyłączyć można za pomocą error = FALSE.

W efekcie, po dodaniu tytułów i URLi, otrzymujemy pełne zestawienie hosty_wynik.csv i podstawową statystykę. Na 1356 sprawdzonych historycznych adresów 323 (23.8 proc.) jest niedostępnych. To wynik i tak lepszy od tego, którego się spodziewałem.

Z historycznej listy Gawareckiego wypadła jedna piąta adresów. Kolejnym etapem badania będzie sprawdzenie ich dostępności w Internet Archive i – jeśli są tam dostępne – pobranie informacji o tym, w zakresie jakich dat. Postaram się to opisać w kolejnej notce.

Wstępna charakterystyka utraconych zasobów

Czy nazwy domen umieszczone na liście hosty_wynik.csv mogą pomóc w scharakteryzowaniu utraconych zasobów? W tej grupie znajdują się:

  • strony publikowane pod koniec lat 90. na hostingu oferowanym przez firmę polbox.pl, która jako pierwsza uruchomiła w Polsce darmowe konta pocztowe w roku 1996, a w 1997 zaczęła oferować darmową przestrzeń na publikowanie stron internetowych (free.polbox.pl. Zamknięcie firmy oznaczało likwidację darmowych kont i usunięcie serwisów. Więcej na ten temat: polbox: historia pewnego falstartu. W lutym 1998 roku polbox hostował 10 tys. stron WWW (nie wiadomo jednak, czy to liczba serwisów czy poszczególnych URLi). W Internet Archive dostępny jest nawet ich katalog, który warto byłoby wykorzystać jako kolejny indeks polskiego historycznego Webu. Każdy użytkownik otrzymywał w polboxie 1MB miejsca na pocztę elektroniczną oraz 2MB miejsca na stronę WWW (1998).
  • w grupie utraconych adresów znajdują się trzy z domeny rządowej .gov.pl (czasopisma Kwartalnik statystyczny, Dziennik Urzędowy Komitetu Badań Naukowych oraz Sprawy nauki). Być może historyczne wersje tych serwisów są dostępne gdzieś w cyfrowych zakamarkach administracji państwowej i udałoby się je namierzyć za pomocą wniosku o udostępnienie informacji publicznej.

Należałoby dodać jeszcze, że straty odkryte do tej pory na liście Gawareckiego obejmują przede wszystkim serwisy w domenie krajowej .pl (300 domen).

Udało się nałożyć pierwszy filtr na historyczną Listę polskich czasopism elektronicznych oraz elektronicznych odpowiedników periodyków drukowanych i odrzucić ponad 300 stron nieosiągalnych po prawie 20 latach od powstania. Kolejnym etapem będzie sprawdzenie i analiza nagłówków http wygenerowanych po odpytaniu pozostałych URLi. Dzięki temu uzupełnimy listę strat, która na tym etapie badania jest wciąż niepełna i wywołuje zbyt pozytywny obraz stanu zachowania tej części historycznego polskiego Webu.

Przeczytaj także:

Udostępnij na Twitterze | Udostępnij na Facebooku