Proszę o wsparcie dla Krzysia Bulczaka, największego bohatera jakiego znam.

Przeszukuj strony domowe Polboxa z lat 1997-2008

Wayback Machine to usługa fundacji Internet Archive umożliwiająca podgląd archiwalnych wersji strony WWW. Niestety WM nie pozwala na pełnotekstowe przeszukiwanie swoich zbiorów i przydaje się jedynie wtedy, kiedy znamy konkretny URL, jakiego historyczną wersję chcielibyśmy przywołać. Postanowiłem przygotować wyszukiwarkę, która pozwalałaby na odkrywanie adresów stron domowych w historycznych dziś zbiorach hostingu free.polbox.pl – polskiego odpowiednika Geocities.

Od 1997 do 2004 roku darmowy hosting na free.polbox.pl umożliwiał założenie własnej strony domowej i konta poczty elektronicznej. Początkowo użytkownicy otrzymywali 2MB na maile oraz 2MB na stronę WWW. Każde konto otrzymywało adres w schemacie free.polbox.pl/r/rafix, free.polbox.pl/s/sawa45 itp. Do tej pory nie było przeszukiwalnego katalogu takich adresów.

Znając główny adres (free.polbox.pl) i korzystając ze skryptu Wayback Machine Downloader byłem w stanie ściągnąć z WM schowany tam zbiór podstron Polboxa. Dzięki schematowi adresów stron w tym hostingu, crawler WM mógł z łatwością przez dekadę (1997-2008) archiwizować strony poszczególnych użytkowników, katalogowane pod główną domeną. Poniżej fragment struktury pobranych plików:

pbx3

W pobranej paczce znalazło się ponad 6 tys. katalogów stron domowych – część niestety pustych, część jedynie ze standardową stroną informacyjną. Co więcej, z podkatalogów oznaczonych w tym systemie literami od A do Z i cyframi 0-9 z Wayback Machine udało się pobrać jedynie podkatalogi oznaczone cyframi oraz te z zakresu A – S. Łącznie jest to zbiór około 2GB plików (głównie html i graficznych, ale także nielicznych multimedialnych i wykonywalnych – exe), który na pewno zawiera poważne braki i nie jest w stanie w pełni reprezentować historycznej wersji Polboxa.

Jednak pobrane z WM katalogi umożliwiły mi przygotowanie testowej wyszukiwarki, pozwalającej na wstępne odkrywanie treści historycznych stron domowych Polboxa. Nie musimy już znać konkretnych adresów URL, wystarczy wpisać słowo kluczowe, mające charakteryzować poszukiwaną treść – w ten sposób dotrzeć można do zabezpieczonego w Wayback Machine konta publikującego strony na interesujący nas temat.

PlbxS1

PlbxS1 udostępniam w mocno niedoskonałej wersji: konieczne jest poprawienie indeksowania, usunięcie duplikatów i pustych stron oraz lepsza integracja z API Wayback Machine. Strony zindeksowane w wyszukiwarce pochodzą z różnych lat z okresu 1997-2008.

Listę historycznych kont z free.polbox.pl udostępnię wkrótce, podobnie jak całe pobrane z Wayback Machine archiwum.

Przejdź do wyszukiwarki: wilkowski.org/plbxs1/

Przeczytaj także:

Udostępnij na Twitterze | Udostępnij na Facebooku