Zmiany w usłudze Save Page Now (SPN)

W poprzedniej notce pisałem o sposobie na automatyczną archiwizację stron WWW w Wayback Machine z wykorzystaniem usługi Save Page Now. Dziś Internet Archive poinformowało o zmianach w tej usłudze. Nowe możliwości SPN wyglądają naprawdę obiecująco – poniżej krótkie podsumowanie:
- Roboty Wayback Machine są teraz w stanie poprawnie interpretować strony wykorzystujące JavaScript; robot wchodzi na stronę z wykorzystaniem prawdziwej przeglądarki – ale działającej w trybie headless z pomocą Brozzlera. Oznacza to, że archiwizowane w WM kopie będą miały lepszą jakość, możliwe jest też automatyczne generowanie screenshotów;
- użytkownik może wybrać opcję archiwizowania nie tylko podanego przez siebie adresu, ale też dodatkowo wszystkich adresów linkowanych z podanej strony;
- użytkownik posiadający darmowe konto w archive.org może tworzyć własne publiczne kolekcje archiwizowanych stron;
- SPN jest w stanie parsować URLe zawarte w dokumentach PDF i formatowanych plikach tekstowych (JSON,RSS);
- dostępne jest nowe API (na razie brak szczegółów).
Grafika: Johannes Woudanus, biblioteka w Lejdzie, XVII w., Wikimedia Commons.
Przeczytaj także:
- Przeszukuj strony domowe Polboxa z lat 1997-2008 (31 sierpnia 2016)
- Jak w prosty sposób archiwizować linki udostępniane przez siebie na Twitterze? (26 listopada 2017)
- Przeszukiwanie pełnotekstowe w Wayback Machine (Internet Archive) (28 października 2016)
- Wykorzystanie archiwów Webu w mediach społecznościowych (14 sierpnia 2018)
- Wprowadzenie do archiwistyki stron WWW (warsztat) (21 maja 2018)
Udostępnij na Twitterze | Udostępnij na Facebooku
Dodaj komentarz