Przeszukiwanie pełnotekstowe w Wayback Machine (Internet Archive)

Fundacja Internet Archive z okazji 20-lecia pracy nad archiwizacją zbiorów WWW udostępniła nową, testową wersję Wayback Machine. Znalazły się w niej dwa ważne narzędzia, mocno wspierające prace z publicznymi archiwami Webu:

  • wyszukiwarka pełnotekstowa dla ponad 273 miliardów stron WWW ze zbiorów Internet Archive
  • strona generująca przystępne podsumowania charakteru zgromadzonych zbiorów z danej domeny (np. takie zestawienie dla prezydent.pl). Podsumowanie prezentuje statystykę rodzajów treści/plików (typy MIME) w korpusie zarchiwizowanych stron z domeny. Generowane są także wykresy pokazujące dynamikę archiwizowania domeny w określonym okresie.

Statystyka zarchiwizowanych plików z hosta prezydent.pl:

p1

Dynamika archiwizacji hosta prezydent.pl w latach 1997-2016:

indeks

Czy nowe funkcje WM powodują, że budowanie własnych profilowanych wyszukiwarek domenowych na zbiorach pozyskanych z Internet Archive nie ma już sensu? Jakie są ograniczenia nowej wyszukiwarki Wayback Machine i jak interpretować podsumowania generowane dla poszczególnych domen? Czy nie jest tak, że wyszukiwarka działa wyłącznie w oparciu o indeksowane strony główne i nie przeszukuje wszystkich treści zindeksowanej domeny (Enter a URL or words related to a site’s home page)? Czym w terminologii Internet Archive jest Webpage i jak ma się ona do typologii proponowanej przez Nielsa Brüggera?

Postaram się wkrótce uzupełnić tę notkę o szczegółowe i krytyczne omówienie obu narzędzi – zachęcam przy tym do subskrybowania newslettera.

Udostępnij na na Twitterze | Udostępnij na Facebooku

Przeczytaj także

Newsletter bezpieczny dla Twojego adresu email dostarcza tinyletter.com. Dowiedz się więcej