Geneza
System informatyczny fedrowanie.siecobywatelska.pl został stworzony do realizowania monitoringów, prowadzonych za pomocą masowej mailowej wysyłki wniosków o udostępnienie informacji publicznej do różnych instytucji. Dzięki temu, że nasza baza adresów email liczy już przeszło 40 000 rekordów i wciąż rośnie, możemy w łatwy sposób wysłać wnioski na przykład do wszystkich gmin w Polsce. System został stworzony przez jednego z członków naszego stowarzyszenia, Adama Dobrawego, w języku Python, z wykorzystaniem frameworka Django.
Od lat prowadzimy monitoringi podmiotów zobowiązanych do udostępniania informacji i masowa wysyłka wniosków, np. do wszystkich gmin, powiatów, szpitali czy szkół była dużym wyzwaniem. Tego typu monitoring przeprowadzony z poziomu indywidualnej skrzynki e-mail szybko spowodowałaby jej blokadę przez systemy antyspamowe. Ponadto problemem byłoby zarządzanie liczbą spraw, która dla pojedynczego monitoringu często liczona jest w setkach, a nawet tysiącach. W naszych monitoringach staramy się badać ważne społecznie tematy, także we współpracy z innymi organizacjami (np. z Lasami i obywatelami pytaliśmy nadleśnictwa o wycinki w polskich lasach). Dlatego szukaliśmy rozwiązania, które pozwalałoby na bezpieczny, wiarygodny i dobrze zorganizowany mailing na dużą skalę, akceptowany przez systemy pocztowe instytucji publicznych. I tak narodziło się w Fedrowanie.
Przed tego typu rozwiązaniem stało wiele wyzwań. Jednym z nich było (i jest) pozyskiwanie adresów mailowych instytucji. Innym było zbudowanie wiarygodności systemu — na ten moment narzędzia, oceniające domeny i serwery pod kątem niechcianych wiadomości, przypisują tym używanym przez nas do wysyłki doskonałą reputację. Kolejnym dużym wyzwaniem było przetwarzanie otrzymanych wyników monitoringu. Gdy mamy do czynienia z setkami, a nawet tysiącami instytucji danego typu – wszak w Polsce jest 2479 gmin – przeprowadzenie monitoringu na skalę kraju oznacza, że otrzymujemy nawet grubo ponad dwa tysiące odpowiedzi. Wyłuskanie z nich konkretnych informacji, szczególnie gdy wniosek zawiera wiele pytań, oraz przekształcenie ich w dane możliwe do dalszej zbiorczej analizy, a nie tylko na poziomie pojedynczych przypadków, jest nie lada wyzwaniem. Dlatego we współpracy z partnerskimi organizacjami stworzyliśmy osobny system: SprawdzamyJakJest. W tamtym czasie, dzięki wsparciu społeczności użytkowników, którzy za pomocą tego systemu analizowali dokumenty i odpowiedzi, byliśmy w stanie zbierać dane z dużych monitoringów. Był to jednak każdorazowo proces trwający kilka miesięcy i wymagał zaangażowania wielu osób — do obsługi systemów, do komunikacji oraz wolontariuszy analizujących poszczególne odpowiedzi z urzędów. Dzisiaj udało się znaczną część tej pracy scedować na moduły Fedrowania, wspierane między innymi przez duże modele językowe, zwane potocznie sztuczną inteligencją, skracając proces zbierania danych z zakończonego monitoringu z kilku miesięcy do kilku dni.
Praca z Fedrowaniem
Zobaczmy, jak wygląda praca z Fedrowaniem. Podstawowym elementem systemu jest monitoring. Monitoring to zbiór wniosków o informację publiczną o tej samej treści, które są wysyłane do grupy instytucji. Zazwyczaj są to instytucje tego samego typu, ale nie jest to warunek konieczny – dopóki wniosek ma taką samą treść i pasuje do różnych instytucji, może być wysłany do dowolnego zbioru instytucji objętych jednym monitoringiem.

Kiedy zakładamy monitoring, musimy przede wszystkim zredagować treść wniosku. Ponadto możemy zdecydować, czy chcemy skorzystać ze sztucznej inteligencji, a także ustawić inne parametry. W ramach monitoringu każdy wniosek wysłany do konkretnej instytucji tworzy osobną sprawę. Każda sprawa ma unikalny adres e-mailowy, który jest używany do dalszej korespondencji z daną instytucją w ramach konkretnego monitoringu. Jeśli chodzi o wysyłkę wniosków, mamy do dyspozycji różne mechanizmy filtrowania, które pozwalają nam precyzyjnie wybrać instytucje, do których chcemy wysłać wniosek. Możemy filtrować instytucje na różne sposoby – według lokalizacji, typu instytucji czy przypisanych do ich tagów. Tagi mogą być używane do bardziej zaawansowanego filtrowania – możemy ustalić, że instytucja musi posiadać wszystkie wymienione tagi, albo wystarczy, że ma którykolwiek z nich. Ponadto możemy zawęzić wyszukiwanie do poziomu województwa, powiatu czy gminy. Te narzędzia pozwalają nam precyzyjnie określić grupę instytucji, do której skierujemy wniosek.

Po wysyłce wniosków przechodzimy do kolejnego etapu, czyli monitorowania odpowiedzi. Sprawdzamy, czy nasze wnioski dotarły do adresatów, najpierw na poziomie serwera, czyli czy wiadomości się „nie odbiły”. Zwykle powodem takiej sytuacji jest nieaktualny adres mailowy, do czego jeszcze wrócę później. Czasami jednak dochodzi do jakiejś chwilowej blokady i ponowienie wysyłki sprawia, że wniosek dociera za drugim razem.
Powszechną sytuacją jest to, że część urzędów w danym monitoringu, z różnych powodów, nie odpowiada, choć mamy potwierdzenie, że nasze pytania zostały odczytane. Wielkość tego odsetka zależy czasem od rodzaju instytucji – niektóre są bardziej, inne mniej skłonne do udzielania odpowiedzi. Ważny jest również charakter oraz złożoność wniosku. Jeśli prosimy o informacje, które są trudne do przygotowania, instytucje często mniej chętnie odpowiadają. Podobnie jest, gdy pytania dotyczą kwestii, które mogą postawić instytucję w złym świetle lub odkrywają jakieś nieprawidłowości – wówczas liczba odpowiedzi wyraźnie spada.
Kiedy minie termin odpowiedzi na wniosek, możemy wysłać ponaglenia do tych instytucji, które nie odpowiedziały. System obsługuje masową wysyłkę takich ponagleń. Możemy stworzyć tag, na przykład ‘ponaglenia’, i oznaczyć nim instytucje, które nie odpowiedziały, aby następnie masowo wysłać przypomnienia. Oczywiście zdarzają się też indywidualne przypadki, kiedy urząd czegoś nie zrozumiał, potrzebuje dodatkowych informacji lub na przykład napisał, że załącza odpowiedź, ale załącznik nie został dołączony. W takich sytuacjach możemy bez problemu kontynuować indywidualną korespondencję w ramach konkretnej sprawy bezpośrednio z poziomu systemu. Czasami korespondencja z urzędem przenosi się na inne kanały. Może się zdarzyć, że urząd odpowie na ogólną skrzynkę mailową Stowarzyszenia, przesyła odpowiedzi przez platformę ePUAP lub nawet tradycyjną pocztą. W takich przypadkach staramy się dodać całość korespondencji do sprawy na Fedrowaniu, której się tyczy, aby mieć pełną historię komunikacji w jednym miejscu.
Rzadkością jest, szczególnie przy większych monitoringach, że wszystkie odpytane instytucje odpowiadają. Dlatego często musimy wchodzić na ścieżkę odwoławczą. Niestety, w Polsce procedury odwoławcze – zarówno w przypadku odmowy dostępu do informacji, jak i milczenia urzędu – są długotrwałe i mogą trwać latami, a uzyskanie odpowiedzi nie jest gwarantowane. W związku z tym musimy wyznaczyć moment, w którym kończymy dany monitoring w rozumieniu zbierania danych na potrzeby raportu końcowego. Nawet jeśli nasz dział prawny kontynuuje spory prawne, nie powstrzymuje to prac nad raportem. Pracujemy wtedy na zebranych danych, mając w pamięci ewentualną aktualizację wyników w przyszłości (tu przykładowe raporty – Wydane dane, czyli po co nam państwo prawa; Kto rozmawia o tym, co w gminie piszczy?) .
Jak AI pomaga w zebraniu wyników
Kiedy w danym monitoringu zamkniemy etap zbierania odpowiedzi, możemy przystąpić do ich przetwarzania, aby wyciągnąć wnioski i przygotować raport. System automatycznie rozpoznaje i wyodrębnia tekst z odpowiedzi, które napływają od urzędów (technologia OCR), co jest ważne, bo instytucje odpowiadają w najróżniejszej postaci i formatach. Czasem odpowiedź znajduje się bezpośrednio w treści wiadomości jako zwykły tekst, ale bywa, że jest to załącznik, na przykład w formacie PDF lub dokument Word. Jeśli jest to PDF, bywa w formie obrazka, co oznacza, że nie da się łatwo odczytać tekstu.
Zatem pierwszym krokiem, w którym technologia tutaj pomaga, jest wyodrębnienie tekstu ze wszystkich wiadomości, niezależnie od formatu, w jakim zostały one przesłane. Gdy ten etap mamy za sobą, możemy użyć dużych modeli językowych, czyli sztucznej inteligencji, do oceny i sklasyfikowania każdej wiadomości. Możemy ustalić, czy wiadomość zawiera odpowiedź od urzędu, czy jest przedłużeniem terminu odpowiedzi, a może odmową. Czasami urzędy omyłkowo wysyłają odpowiedzi do niewłaściwej sprawy, a czasem wiadomość jest po prostu spamem. Na tym etapie sztuczna inteligencja pomaga w klasyfikacji przychodzących wiadomości.
Kiedy mamy już za sobą klasyfikację wiadomości i wiemy, które z nich zawierają odpowiedzi od urzędów, możemy przejść do kolejnego kroku – powiązania konkretnych pytań z wniosku z odpowiadającymi im fragmentami odpowiedzi. Innymi słowy, system automatycznie przyporządkowuje pasujące fragmenty odpowiedzi do odpowiednich pytań, co jest niezwykle pomocne. Na tym etapie możemy wygenerować arkusz kalkulacyjny, w którym w poszczególnych kolumnach znajdują się między innymi: nazwa instytucji, numer pytania, treść pytania oraz fragment odpowiedzi. Przeglądanie danych w takiej formie jest znacznie prostsze niż analizowanie każdej sprawy osobno.
Ostatnim krokiem jest zastosowanie dużego modelu językowego, który może dokonać kategoryzacji odpowiedzi lub innej formy syntezy. Na przykład, jeżeli pytanie miało formę ‘tak/nie’, system może przyporządkować odpowiedzi do jednej z tych kategorii. W przypadku bardziej skomplikowanych pytań możemy chcieć pogrupować odpowiedzi w inne, zdefiniowane kategorie. Jeśli pytanie dotyczyło wartości liczbowej, system może zadecydować, czy odpowiedź mieści się w określonym przedziale, np. ‘0-5’, ‘6-10′, czy ’11-20’, itd. Dodatkowo, dzięki modelowi językowemu, możemy też, zamiast kategoryzacji, „wyciągnąć” z odpowiedzi konkretne, surowe liczby lub inne dane, co bardzo ułatwia analizę i dalszą pracę nad raportem. Zamiast analizować każdą odpowiedź osobno, mamy możliwość przetwarzania danych w większej skali, co przyspiesza i ułatwia cały proces.
Baza mailingowa instytucji zobowiązanych
Ważną częścią systemu Fedrowania jest baza adresów e-mail instytucji, którą stale rozwijamy i aktualizujemy. Zwróćmy uwagę na dwa kluczowe zagadnienia związane z tym tematem. Pierwsze to źródła danych. W przypadku wielu typów instytucji nie sposób znaleźć publicznie dostępnych, centralnych rejestrów, zawierających ich pełne wykazy oraz kontakt mailowy w ustrukturyzowanej formie. To stanowi poważne wyzwanie. Na przykład dane instytucji działających na poziomie powiatu często są zebrane i dostępne na poziomie jednostek nadrzędnych, takich jak urzędy wojewódzkie. Trzeba zatem odwiedzić strony internetowe każdego z szesnastu województw, a każda z tych stron może wyglądać inaczej. Następnie trzeba znaleźć podstronę z listą podległych jednostek i zebrać dostępne tam dane kontaktowe, prezentowane na jakieś szesnaście różnych sposobów, co siłą rzeczy jest czasochłonne. Na szczęście raz zebrane dane służą przez długi czas, choć niestety nie na zawsze.

I tutaj płynnie przechodzimy do drugiego zagadnienia, którym jest aktualność tych danych. Zaskakująco często urzędy zmieniają swoje adresy e-mail. Oczywiście w niektórych przypadkach jest to uzasadnione, zwłaszcza gdy instytucja korzysta z adresu w domenach takich jak Gmail czy Onet – w takich sytuacjach zmiana na adres np. w domenie rządowej jest w pełni zrozumiała i pożądana. Jednak bywają też zmiany, które trudno racjonalnie wytłumaczyć. Niezależnie od powodów tych zmian, naszym zadaniem jest, aby je zauważyć i wprowadzić do naszej bazy.
Integracje
Fedrowanie jest przygotowane na integrację z zewnętrzną domeną partnerską, co pozwala innym organizacjom na wysyłanie wniosków monitoringowych w swoim własnym imieniu, z ich własnych adresów e-mail. Mimo to cała obsługa odbywa się nadal z poziomu Fedrowania, co jest bardzo wygodne i praktyczne. Takie formy współpracy regulujemy przez podpisanie odpowiednich umów, których zakres i szczegóły zależą od konkretnej sytuacji i potrzeb danej organizacji.
Dalsze plany
Przed nami wciąż pole do rozwoju w zakresie, w jakim w gromadzeniu wyników monitoringów pomaga nam sztuczna inteligencja — da się tu zarówno jeszcze zwiększyć skuteczność, jak i zmniejszyć koszty. Ponadto mamy w zanadrzu system graficznej prezentacji danych pozyskiwanych przez monitoringi — Fajne Dane, ale potrzebna jest jego ściślejsza integracja z Fedrowaniem. Chcemy także nadal rozwijać mechanizmy współpracy z partnerami.



Próbowałem się zalogować kontem Google i dostałem komunikat:
Rejestracja zamknięta
Przepraszamy, ale w tej chwili rejestracja jest zamknięta.
Po co promować aplikację, z której nie można skorzystać?
Ależ jak najbardziej można skorzystać, ale faktycznie inicjalnie potrzebny jest bezpośredni kontakt z biurem Stowarzyszenia. Zapraszam!
Czy kiedykolwiek przedmiotem fedrowania, było stosownie przez instytucje publiczne będące podmiotami zobowiązanymi do udostępniania KAŻDEMU informacji publicznej, wymogu samoidentyfikacji (dane osobowe) przez podmiot uprawniony, jako obligatoryjnego warunku udostępnienia żądanej informacji publicznej?