Go to content

Друзі відкритих даних. Кирило Захаров про суворі реалії українських державних реєстрів

Друзі відкритих даних. Кирило Захаров про суворі реалії українських державних реєстрів

Навчання
23.05.2018

Створення стартапу на основі відкритих даних українських реєстрів у наших реаліях – це як комп’ютерна гра, де є різні рівні складності і монстри, яких потрібно здолати. 

Команда розробників сервісу «Суд на долоні» зіткнулась, наприклад, з безліччю дрібних і значних помилок. Для їх пошуку і опрацювання довелося навіть створити робота, що, як Геракл, розчищав авгієві стайні відкритих даних різних реєстрів. Вишукував «вулиТсі», «просРекти», дубльовані акаунти суддів, неправильні ЄДРПОУ та інший бруд. 

Про це, а також про власний досвід занурення у тему відкритих даних, тренерство і дата-активізм розповів Кирило Захаров, співзасновник компанії «ПРОМЕДІА-консалтинг», тренер для міських управлінців з відкриття даних та розробник уже згадуваного раніше онлайн-сервісу «Суд на долоні».

Інтерв’ю з ним підготувала команда ініціативи «Дані міст» для спецпроекту «Друзі відкритих даних».

Розпочав свою дата-історію Кирило у далекому 2007-му році.

Десять років разом

[особиста історія зацікавлення відкритими даними]  

 - Вперше ми зайнялися даними у 2007 році. Мова йде про інформацію з протоколів дільничних виборчих комісій, які оприлюднювалися Центральною виборчою комісією. Тоді ми почали працювати з цифрами, опублікованими на офіційному сайті ЦВК. Виводили з них аналітику, статистику тощо. 

Це були ще не відкриті дані в повному розумінні. Але принаймні публічна та достатньо якісна інформація. Згодом ми почали займатися іншими аналогічними проектами, пов'язаними зі статистикою. В 2016 році рух за відкриті дані в нашій країні став більш інтенсивним. Ми стежили за порталом відкритих даних, за реєстрами, які відкривалися. А в 2017 році включилися вже безпосередньо в процес впровадження open data-політики в Україні. 

Коли я кажу «ми», то маю на увазі компанію «Промедіа Консалтинг». У нас невелика дніпровська команда - я та двоє моїх колег. Одна зі співзасновниць була колись моєю викладачкою в університеті - ми знайомі ще з моїх студентських часів. Друга наша колега займалася роботою зі ЗМІ. 

Спочатку ми працювали над супроводом виборчих кампаній. У низці проектів я займався юридичною частиною роботи і питаннями, пов'язаними з аналітикою. Моя викладачка була залучена у концептуальне вибудовування кампаній. Ну, і відповідно, роль третьої колеги - робота з медіа. Після 2012-го ми вирішили, що готові створити власний проект. У нас була добра команда, яка мала знання і щодо роботи з медіа, і в розробці та супроводі різних проектів, і в математиці, статистиці, наукових дослідженнях. Тож ми створили консалтингову компанію. 

Впродовж останнього року я допомагав у створенні Дніпровського порталу відкритих даних. Брав участь у розвитку цього напрямку в Дніпрі як один з тренерів проекту TAPAS. Також консультував кілька команд, які розгортали портали відкритих даних. Наприклад, у Дрогобичі, який зараз дуже популярний через успішне впровадження інструментів електронної демократії.

Наш стартап «Суд на долоні» поєднав у собі і комерційну, й суспільно значущу складові. Він використовує відкриті дані судової адміністрації та пов’язує їх з іншими відкритими даними для того, щоб надати юристам, адвокатам, суддям, журналістам-розслідувачам та іншим зацікавленим можливість швидкого пошуку та аналізу судових рішень.

Ідея працювати з реєстром судових рішень з’явилася досить давно. Але на той час він був певною мірою закритий. Отримати інформацію можна було тільки через веб-інтерфейс судової адміністрації. Із застереженням, що, мовляв, якщо ви порушите роботу нашого реєстру, то на вас зваляться усі лиха світу аж до кримінальної відповідальності. 

Але згодом дані судової адміністрації були опубліковані. І навіть у форматі відкритих даних. Ми, звісно, вхопились за цю можливість і почали працювати.

У конкурсі юридичних стартапів перемогла команда без жодного юриста

[про історії успіхів]

 - За час роботи з даними з нами трапилося багато доброго. Особиста історія успіху - це, безумовно, відкриття даних у Дніпрі. У нас дуже довго про це говорили і було зроблено багато кроків на шляху до публічності міської влади — Відкрита мапа Дніпра, Відкритий бюджет тощо. Але власне дані не публікувалися. З березня минулого року в цей процес включився я і почав відкривати дані безпосередньо з Дніпровською міськрадою. Вони запустили свій портал і за три місяці опублікували близько 170 наборів. Це дуже стислі терміни. Більшість з тих наборів були досить непогано структуровані та оформлені відповідно до стандартів. Це призвело до того, що Дніпро отримав одну з нагород Open Data Awards на першому форумі, присвяченому відкритим даним, у 2017 році. 

Якщо говорити про командні успіхи, то минулий рік був на них багатий. Ми взяли участь у трьох конкурсах стартапів зі своїм сервісом «Суд на долоні» - Open Data Challenge, HiiL Justice Innovation Challenge та AEQUO Legal Tech Challenge. Щоразу отримували призові місця та додаткове фінансування для розвитку проекту. Зокрема, у серпні минулого року ми подалися на конкурс стартапів в юридичній сфері, який проводила комерційна компанія AEQUO Law Firm. Зайняли перше місце серед десяти досить «зубастих» юридичних команд, хоча в нашій немає жодного юриста. Так що успіхами нас минулий рік порадував.

ВулиТсі, просРекти і клони суддів

[про епікфейли у роботі з відкритими даними]

 - Епікфейли теж траплялися. Один з найбільших - це те, що ми декілька разів відкладали офіційний запуск свого сервісу.  Коли тільки починали проект, думали, що зробимо все швидко та якісно. Але коли зіткнулися з оприлюдненими у форматі відкритих даних державними реєстрами, то зрозуміли, що вони перевершують всі очікування (у поганому значенні цього поняття). Тому просто колосальну кількість часу витратили на те, щоб очистити дані. В реєстрах величезна кількість невалідних значень, багато так званих «брудних» даних. Якщо ви будете шукати адреси у Єдиному державному реєстрі юридичних осіб (далі ЄДР. – «Дані міст»), то вам трапляться такі чудові речі, як «вулициця» замість «вулиця» чи навіть «просрект». Або ось теж мій улюблений кейс: люди пишуть «вулиця» через букву «т». «Вулится»! Зрозуміло, коли при заповненні даних роблять друкарську помилку. Але букви «ц» і «т» дуже далеко одна від одної на клавіатурі. А отже - люди свідомо намагалися написати ось так по-особливому. Не кажучи про такі дрібниці, як наявність латиниці в українських словах, що псує будь-які алгоритми роботи з ними. 

Ми знаходили в ЄДР записи, які там в принципі існувати не повинні. Коди ЄДРПОУ, що не відповідають стандарту, за яким вони повинні створюватися. Чи, наприклад, з даних щодо судових рішень ми намагалися побудувати єдиний список суддів і побачили, що імена суддів можуть дублюватися по кілька разів у різних варіаціях. Наприклад, вказується спочатку прізвище, ініціали, потім - ініціали, прізвище. У підсумку, коли ми з вихідного масиву побудували унікальний список суддів, у нас вийшло близько 24 000 осіб. Після того, як ми цю інформацію очистили від дублювань і помилок, залишилося всього 11 000. Тож можна вважати, що в реєстрі судових рішень, який був опублікований судовою адміністрацією, в середньому на кожного суддю припадає по 2 облікових записи.

Алгоритм-Геракл і Авгієві стайні реєстрів

[про очистку 70 мільйонів записів]

 - Безумовно, чистити дані вручну неможливо – лише уявіть собі, як в такий спосіб опрацювати 70 мільйонів записів. Відповідно, ми розробляли спеціальні алгоритми, які вичищали всю цю інформацію, приводили до єдиного стандарту. Безумовно, неможливо автоматично виправити усі помилки, але ми боремося за точність алгоритмів. Однією з ключових переваг проекту «Суду на долоні», який ми розробляємо, має бути настільки висока якість даних, наскільки вона може бути в ситуації, що склалася.

З огляду на все це, чесно кажучи, я вже боюся прогнозувати, коли ми стартуємо. Але у нас все-таки є надія найближчим часом вийти на  первинний реліз «Суду на долоні». Це буде не весь запланований функціонал, але принаймні основна його частина. Тобто все, що пов'язано з пошуковою системою. Фактично, вже зараз ми «під одним дахом» зібрали не тільки судові рішення, а й все з ними пов'язане. У нас одночасно працює пошук по судах, суддях, прокурорах, нотаріусах, арбітражних керуючих. 

Пояснювати по кілька разів – це нормально

[про те, що брак знань у міських управлінців на тему відкритих даних є прогнозованим викликом]

 - Працюючи з міськими управлінцями, я від початку прекрасно розумів, що моє завдання - пояснювати і прояснювати, навіть якщо це треба робити по кілька разів. Людям, які прийшли до відкритих даних з IT-напрямку, все здається зрозумілим та очевидним. Логічно, бо вони з даними працюють і добре усе розуміють. Якщо говорити про чиновників і, тим більше, чиновників у малих містах, варто зважати на те, що для них відкриті дані - новий феномен. Ця політика раніше майже жодним чином не стосувалося їх роботи. Часто люди взагалі не знають, чому зараз вон має почати їх стосуватися. 

У низці країн фахівець з відкриття даних - це окрема посада. У нас єдиний подібний приклад - це Львів. Там створене окреме комунальне підприємство, у якому є цілий штат, що займається, крім усього іншого, саме відкритими даними. І це, насправді, дуже круто. 

В інших же містах, де муніципалітети не можуть собі це дозволити, доводиться миритися із тим, що для людей це нова інформація. Так, їм необхідно доносити її по кілька разів. Немає сенсу вимагати від чиновника, який займається житлово-комунальним господарством, щоб він ще і розбирався в якійсь специфіці даних, переводив існуючі у нього таблички в інші формати. Тому що їм це складно і насправді часто воно зайве. Повинен бути простий і зрозумілий процес публікації. Якщо у тебе є дані - підготуй їх максимально ретельно, щоб вони були якісними й чистими. А потім опублікуй у найпростішому форматі - наприклад, сsv. Опрацювання даних для застосовування у IT сервісах  - це вже робота для тих, хто цими даними цікавиться. 

Питання часу

[про те, що спочатку мають відкриватись дані, а згодом з’являться сервіси]

 - Вимагати чогось надзвичайного від управлінців щонайменше несправедливо. Тому що на них вся ця ситуація з відкритими даними лягла додатковим вантажем. І вони поки що не бачать промовистих прикладів та наслідків цієї роботи. А отже, не можуть зрозуміти, навіщо це потрібно. І щоразу, коли я говорю про відкриті даних, пояснюю, що вони не зможуть допомогти одразу. Це запорука майбутніх рішень для розвитку електронних сервісів. Для аналогії зазвичай пропоную пригадати, як запрацювали інтернет-портали міських рад. Коли вони тільки з'являлися, то всі ставили питання: кому це треба? Мовляв, інтернет не такий поширений, ніхто не буде це читати, бо є сайти ЗМІ тощо. Зараз жодна міська рада без власного порталу себе в принципі не уявляє. Така ж ситуація буде і з відкритими даними. Коли вони публікуватимуться усюди добре і якісно, з’явиться величезна кількість команд і розробників, які захочуть на основі цього створювати цікаві сервіси і заробляти гроші. Це винятково питання часу. Той, хто почне публікувати дані раніше, опиниться в найбільш виграшному становищі.

Великі зрушення

[про те, як Україна впроваджує політику відкритих даних]

 - Якщо подивитись на українську ситуацію загалом, то процеси щодо впровадження політики відкритих даних тривають, а їх масштаби величезні. На центральному рівні це спостерігається через прийняття уточнень до  835-ї постанови Кабміну про розширення кількості необхідних для публікації наборів. 

Місцева влада підключається до відкриття даних. Минулого року п’ять міст офіційно підписали Хартію відкритих даних. У нас чудово працюють такі проекти, як TAPAS. З’являються нові ініціативи на кшталт «Дані міст», що взяли на себе роботу з малими містами - там теж вдалося опублікувати якісні набори.  

Чого нам поки не вистачає - це єдиних стандартів публікації, які були би прийняті усіма. Щоб дані, одержувані з різних джерел, можна було швидше і простіше узагальнювати і отримувати з них щось корисне. А в усьому іншому - крига не те, що скресла. Як на мене, Україна щодуху мчить вперед. Ми зростаємо в міжнародних рейтингах, пов'язаних з відкритими даними і непогано показуємо себе навіть на міжнародній арені.

 

Інтерв’ю та переклад з російської  команди ініціативи «Дані міст» 

 

 

Організатори:

OPORA TechSoup NED NED

 

Інформаційні партнери:

Gurt

Генеральний інформаційний партнер

Hromadskyi prostir

Focus.ua

UCMC