Як у ЦВК не вийшло у відкриті дані: історія обробки фінансових звітів кандидатів

Понеділок, 06 травня 2019, 11:46
Олена НікулінаOlena Nikulina
аналітикиня з партійних фінансів руху ЧЕСНО

Оскільки рух ЧЕСНО вже декілька років постійно працює з партійними фінансовими звітами, ми з радістю зустріли обіцянку Центральної виборчої комісії викладати фінансові звіти кандидатів у Президенти у форматі машиночитаних даних. Бо формат, в якому зараз знаходяться звіти партій незручний для автоматичної обробки і вимагає багато попередніх дій, яких можна було б уникнути. Рух ЧЕСНО одразу розпочав аналіз звітів кандидатів, щойно вони з’явились на сайті.

На жаль, одразу після публікації проміжних фінансових звітів нас спіткало розчарування. Окрім вже звичного жахливого сканованого PDF були доступні більш "гнучкі" формати: MS Word та навіть більш-менш машиночитний XML. Попри це, і цього разу робота з державними відкритими даними не нагадувала легку прогулянку у парку.

XML це стандарт ієрархічно структурованих даних. Тобто дані представлені у формі дерева, подібного до HTML-коду сторінки, яку ви зараз переглядаєте. За умови, якщо XML-файл згенеровано правильно, його можна автоматизовано форматувати, аналізувати, редагувати. З цим-то й виникла проблема.

Хоча спочатку проміжні фінансові звіти у XML-форматі були доступні не для всіх кандидатів, ці  файли дійсно можна було відкривати у табличних процесорах MS Excel, Google Spreadsheet та Libre Calc у вигляді таблиць. Однак після оновлення сторінки, "перезалиті" XML-файли вже не лише неможливо було перетворити у табличний формат, а й навіть переглянути у коректному форматі "дерева". Окремої згадки варте кодування Windows, через яке при роботі на Unix-подібних операційних системах доводилося спочатку перекодовувати файли (правильно було б створювати XML в стандартному кодуванні UTF-8).

Як було:

 

Як стало:

 

Проте ці файли все ще можна було перетворити у табличний формат за допомогою програмування (ми використали Python, ось код: для форми 2 з внесками і для форми 3 з видатками). Декілька рядків коду і XML перетворився на гарну структуровану CSV-табличку, наприклад, як ця:

 

Одразу зауважимо, що звіти не всіх кандидатів вдалося відкрити навіть після перекодування. Наприклад, перший варіант звіту Олександра Вілкула містив зламану деревоподібну структуру. На наш запит у ЦВК запропонували звернутися до відповідального за завантаження файлів працівника IT-відділу.  Той визнав проблему і пообіцяв оновити звіти найближчим часом.

Так, як до першого туру Президентських виборів лишалися лічені дні, а на дані нам хотілося не лише подивитися, але й проаналізувати, нам довелося йти наступними шляхами:

  1. Розпізнавати PDF за допомогою програм типу ABBYY FineReader (у результаті "поплила" частина рядків та колонок і дані потрібно було дочищати вручну)
  2. Копіювати табличку з doc-файлів, які опубліковані на сайті НАЗК (проте і тут виникали проблеми, особливо з об’ємними звітами)

Насамкінець, навіть приведені до нормального формату звіти не стали такими, які було зручно аналізувати. В окремих кандидатів назви юридичних осіб-контрагентів систематично скорочувалися до невпізнаваності, писалися з помилками або мали декілька різних варіантів написання в рамках одного звіту. Все це додало нам багато "захопливих" годин очистки та нормалізації даних. Врешті-решт, навіть після цих дій можна було побачити зайвих 34 млн видатків в кандидата через помилку при заповненні: в одному з рядків продублювали код ЄДРПОУ підрядника в суму.

 

Тому громадянам, які зацікавлені в аналізі внесків і витрат кандидатів в Президенти, ми радимо не витрачати час на самостійне опрацювання звітів, а скористатися нашим інтерактивним модулем та скачати оброблені нами дані з Github.

Чому ми вирішили описати цей випадок?

В жодному разі не для того, щоб ще раз підсумувати, що з якістю державних відкритих даних в Україні все погано. Насправді, низка якість державних даних це проблема не лише України, а і навіть країн, де система відкритих даних розвинута набагато краще. Так, наприклад, дослідження системи відкритих даних у Великій Британії демонстрували, що якість значного обсягу державних відкритих даних була настільки низькою, що обробити та переглянути їх неможливо без володіння навичками програмування на високому рівні.

Крім того, той факт, що завдяки Центральній виборчій комісії, українці можуть ознайомитися з даними проміжних фінансових звітів кандидатів ще до виборів (звіти публікувалися від 25 березня) це вже перемога. До того ж, навіть у порівнянні з попередніми президентськими виборами 2014 року, структура звітів кандидатів стала набагато більш дружньою до користувача. Для порівняння:

2014

Джерело: https://www.chesno.org/news/1929/
Джерело: https://www.chesno.org/news/1929/

2019

 

Саме тому надзвичайно важливо, щоб потенціал цих нових, безпрецедентних для нашої країни, даних був використаний у якнайбільш повній мірі. Насамперед, це передбачає, що дослідники, журналісти, представники громадського сектору та, найважливіше, виборці, зможуть вільно та просто, без додаткових бар’єрів та необхідності володіти специфічними навиками, зможуть отримати ознайомитись з цими даними та зробити на їх основі висновки, важливі для зваженого вибору.

Автори: Олена Нікуліна, Антон Кривко – аналітики з партійних фінансів руху ЧЕСНО.

Досить пиляти законодавчу гілку влади
На фінансування партій у 2020 передбачено понад 1 мільярд гривень. Це нормально?
13 кроків на захист прав людини для нового парламенту
У липні низка правозахисних організацій презентувала документ із 13 кроками для нового парламенту, які мають поліпшити становище з правами людини в Україні. Об’єднані в коаліцію «Правозахисний порядок денний» (ППД) правозахисники назвали ключові виклики, з якими не впоралась колишня влада і покладають сподівання на нову. То що ж увійшло у цей документ та чи підтримали його партії?