Proszę o wsparcie dla Krzysia Bulczaka, największego bohatera jakiego znam.

Archiwum tweetów Kancelarii Prezydenta RP

Postanowiłem przygotować archiwum tweetów Kancelarii Prezydenta RP.

Kontekst

Brytyjskie Archiwa Narodowe (National Archives) udostępniają na swoich stronach archiwa tweetów poszczególnych ministerstw i agend rządowych. Kopie publikowane są w standardowych formatach umożliwiających przeszukiwanie i przetwarzanie danych (xml i JSON). To ponad 65 tys. tweetów, które można swobodnie wykorzystywać – także w celach badawczych czy działalności obywatelskiej.

Polskie władze nie tylko nie publikują takich archiwów, ale nawet nie mają świadomości ograniczeń związanych z dostępem do publicznych wpisów. Być może myślenie jest takie: nie ma sensu przygotowywać archiwów, skoro wszystkie tweety są dostępne i można je sobie ściągnąć bezpośrednio z Twittera. Tak niestety nie jest: interfejs programistyczny Twittera (API) wprowadza limity na pobieranie publicznych wpisów każdego użytkownika. Metoda GET statuses/user_timeline pozwala na pobranie maksymalnie 3200 najnowszych tweetów. Tymczasem – przykładowo – Kancelaria Prezydenta od 2011 roku do teraz opublikowała 6943 tweety: w ten sposób możemy pobrać niecałą połowę z nich.

Ponieważ bezpośrednia współpraca z Twitterem i pozyskanie archiwum nie jest możliwe (chyba, że reprezentuje się Bibliotekę Kongresu i ma odpowiedni budżet), trzeba radzić sobie w inny sposób. Narzędziem dostępu może być wniosek o udostępnienie informacji publicznej. Przetestowałem go w przypadku Kancelarii Prezydenta RP, uznając, że tweety z konta @prezydentpl to informacja publiczna i każdy powinien mieć do nich dostęp poza ograniczeniami algorytmów Twittera. Nie wiem, czy taka metoda zadziała przy innych instytucjach państwa, ale zachęcam do próbowania i dzielenia się zgromadzonymi danymi.

Przetwarzanie informacji publicznej

W grudniu 2016 roku poprosiłem Kancelarię Prezydenta o udostępnienie wszystkich tweetów z konta @prezydentpl, wskazując, aby przekazano mi archiwum, które można wygenerować w ramach każdego konta w tym serwisie. Ta opcja dostępna jest od 2012 roku i umożliwia pobranie paczki wszystkich tweetów, które następnie można przeglądać za pomocą prostej natywnej aplikacji w javascripcie. Treści tweetów wczytywane są w niej z pliku csv.

Kancelaria wysłała mi właśnie ten plik.

Niestety, jego jakość była zła:

Dodatkowym ograniczeniem było to, że taka postać archiwum zawiera jedynie podstawowe metadane poszczególnych tweetów – znacznie mniej niż dostaje się przy przy korzystaniu z API:

tweet_id
in_reply_to_status_id
in_reply_to_user_id
timestamp
source
text
retweeted_status_id
retweeted_status_user_id
retweeted_status_timestamp
expanded_urls

Po kilku nieudanych próbach wyczyszczenia pliku do postaci, która umożliwiłaby stworzenie tabeli, zdecydowałem się na inną metodę. Z zanieczyszczonego pliku csv wyciągnąłem ponad 6 tys. wartości pola tweet_id (czyli numery identyfikacyjne poszczególnych tweetów) i za pomocą biblioteki Twython ściągnąłem ich pełne metadane bezpośrednio przez API. W ten sposób powstał jeden zbiorczy plik w formacie json, który można dalej przetwarzać i który powinien być plikiem wzorcowym przeznaczonym do zarchiwizowania.

Wyszukiwarka

Mając bazę prezydenckich tweetów mogłem przygotować prostą wyszukiwarkę (wilkowski.org/prezydentpl/), całkowicie niezależną tak od Twittera jak i Kancelarii Prezydenta. Wyciągnięcie danych na zewnątrz i upublicznienie ich poza kontrolą API oraz instytucji publikującej wpisy wydaje mi się jednym z podstawowych warunków dobrej archiwizacji Twittera. Twitter z perspektywy archiwalnej to system zamknięty, narzucający poważne ograniczenia na możliwości wykorzystywania swoich zasobów. Instytucja publiczna, jeśli chce zachować własną podmiotowość wobec tego serwisu, musi archiwum swojej komunikacji budować niezależnie od niego.

Dzięki ominięciu ograniczeń API przez dostęp do informacji publicznej przygotowana przeze mnie wyszukiwarka zawiera ponad 2 tys. tweetów więcej niż archiwum w projekcie Moje Państwo oraz pozwala na podgląd wszystkich dostępnych metadanych (opisowych i technicznych). Dzięki temu można przygotować podstawowe analizy.

Wyszukiwarka: wilkowski.org/prezydentpl

Baza tweetów do pobrania: archive.org/download/Prezydentpl

Przeczytaj także:

Udostępnij na Twitterze | Udostępnij na Facebooku