Příležitost, nebo past? Jak je na tom český stát s otevřenými daty

Díky datům od státní správy si můžete ověřit, že váš odběratel není zatížen exekucí nebo není v insolvenci, že ten pán, co vám vydal fakturu, má platné živnostenské oprávnění, nebo si prohlédnout účetní rozvahu klíčového obchodního partnera. Otevřenost těchto dat má tedy přímý a pozitivní dopad na podnikatelské prostředí. Jak je na tom ale naše veřejná správa v oblasti otevřených dat při bližším pohledu?

Otevřenost jen na oko

Řada výše uvedených datových zdrojů má již dnes svoje API a státní správa o nich ráda mluví jako o „otevřených“. Paráda, získávání dat v tom případě přece musí být radost sama! Třeba takový obchodní rejstřík – ten je dostupný přes webovou službu ARES. Pominu-li skutečnost, že webová verze rejstříku je spravována Ministerstvem spravedlnosti (justice.cz), ale API ve skutečnosti provozuje Ministerstvo financí (ARES), toto rozhraní na první pohled vypadá velmi dobře. Na druhý pohled ale zjistíte několik „drobných“ nedostatků.

Na API smíte přes den poslat maximálně tisíc dotazů a po překročení tohoto limitu vám zablokují IP adresu – to je trochu problém, pokud má vaše služba přes 3 tisíce uživatelů denně. Můžete sice požádat ministerstvo o navýšení limitu, ale musíte projít schvalovacím procesem a nikdo vám nezaručí, že si to úředník v budoucnu nerozmyslí a limit vám nečekaně nesníží zpět na standardní hodnotu. Tento problém se běžně obchází pomocí tzv. proxy serverů, což ale může být technicky i finančně náročné.

Co třeba insolvenční rejstřík? Ten je dostupný jak na webu, tak i prostřednictvím API. V dokumentaci se ale dozvíte, že by mezi jednotlivými dotazy na webovou službu měl být interval minimálně 10 minut – dovedete si představit, že by si takto restriktivní omezení dovolila zavést jakákoliv komerční aplikace? Vzhledem k tomu, že nechcete riskovat dostupnost vaší vlastní služby, možná se rozhodnete data raději scrapovat z webu, kde takové omezení neplatí.

Problémy s kvalitou i zákony

Základem kvalitní datové analýzy jsou konzistentní a očištěná vstupní data. Taková ale z výše uvedených zdrojů nedostanete ani náhodou. V datech jsou nezřídka očividné chyby způsobené nedostatečnou kontrolou při jejich zadávání do databází kdesi na úřadech. Struktura dat se vám mění přímo pod rukou. Vloni ze všech aplikací zmizel jediný do té doby poskytovaný identifikátor fyzické osoby – rodné číslo. To je jistě dobře, ale bohužel žádný jiný identifikátor státní správa nenabídla. Nedávno se zase v ARESu začala zničehonic jména subjektů uvádět výhradně velkými písmeny. A takových případů je celá řada. Z pohledu běžného uživatele jsou tyto změny triviální, analytika ale minimálně potrápí.

A jsou tu i legislativní problémy. Datasety často obsahují osobní údaje, např. data narození. Ve sbírce listin nezřídka najdete i čísla občanských průkazů, podpisové vzory a řadu dalších potenciálně zneužitelných informací. Těžko dnes najdete někoho, kdo by měl stoprocentně jasno v tom, pod jakou licencí jsou data veřejné správy poskytována a jakým způsobem je možné je zpracovávat a dále s nimi nakládat.

Blýská se na lepší časy?

Zásadní otázka zní: má veřejná správa motivaci k poskytování skutečně otevřených dat? Obávám se, že zatím moc ne. Zájem o open data ale roste (viz naše nedávná reportáž), důkazem toho budiž například nedávno uspořádaná akce Open data day nebo aktivity lidí sdružených kolem projektu Náš stát. Kromě toho přistoupila Česká republika 14. září 2011 k iniciativě Open Government Partnership, na jejímž základě byl vypracován akční plán a ten by měl být nyní postupně realizován.

Tento plán je velmi ambiciózní, jeho cílem je opravdové otevření řady datových setů nejen po stránce technologické, ale i legislativní a organizační (plánuje se vytvoření katalogu datasetů). Prvním výstupem projektu byla koncem loňského roku metodika, která je podkladem pro publikování otevřených dat veřejné správy. V tomto okamžiku je naplňování plánu již v rukou ministerstev, která dostala za úkol otevřít jimi provozované datové sety. Michal Berg (datablog.cz) kdysi správně poznamenal, že úspěch celého projektu bude do značné míry záviset zejména na přístupu jednotlivých ministerstev.

Pokud by se skutečně naplnila všechna slibovaná prohlášení, nastala by v ČR open-data nirvána. Člověka z oboru už nepřekvapí, že realita je jako obvykle o poznání smutnější. Ukázkovým příkladem je vyjádření Ministerstva spravedlnosti (obchodní a insolvenční rejstřík), které na dotaz stran aktuálního stavu naplňování z programu vyplývajících závazků odpovědělo, že v podstatě neudělalo naprosto nic a čeká nyní na další pokyny koordinátorky programu (Karolína Peake). Ostatní ministerstva jsou na tom více či méně podobně. K čemu nám tedy je přihlašování se k Open Government Partnership a dalším podobným iniciativám, jestliže na straně státu neexistuje motivace k jejich naplňování?

Na velký byznys to zatím není

Věřím, že aby nad daty veřejné správy mohly začít vznikat větší aplikace v komerční sféře, musí se tato data nejprve stát skutečně otevřenými. Zkuste přesvědčit investora, aby vám dal peníze na projekt založený na permanentní válce o data se státem. Na druhou stranu, i současný neutěšený stav je vlastně příležitost – řada lidí vám totiž bude vděčná za to, že tuto válku vedete za ně a možná vám za to i zaplatí.

I to je jeden z důvodů, proč jsem založil web Bizbiz.cz. Práce s daty mě vždy bavila, a když jsem při psaní diplomky objevil veřejné rejstříky, bylo mi okamžitě jasné, že tady se budu moci opravdu vyřádit. Služba je vlastně agregátorem veřejně dostupných informací o obchodních společnostech. Kromě toho umožňuje dohledávat personální vazby mezi nimi a uživatelé si také mohou nechat zasílat upozornění, pokud se v jimi vybrané firmě něco změní. Mezi typické uživatele patří advokátní kanceláře, které uvítají, že mají údaje ze všech zdrojů na jednom místě. Další velkou skupinu tvoří stavební firmy, které prověřují svoje zákazníky a nechávají je monitorovat – předcházejí tak riziku nevymahatelných pohledávek.

Bizbiz.cz jsem původně vytvořil jen tak pro zábavu a svůj obchodní model si teprve hledá. Do budoucna se otevírají v podstatě dvě možnosti – buď vytvořit ultimátní katalog firem, kde budeme kromě státních dat agregovat i informace z médií, kontakty a podobně, nebo se spíše vydat cestou pokročilé analytiky nad státními daty (např. výpočet kreditního ratingu obchodních společností). Obě varianty jsou otevřené a sám se rád nechám překvapit, jak to nakonec dopadne. Stejně tak se nechme překvapit, co pro nás státní správa v oblasti otevřených dat přichystá. Tak trochu se obávám, že to zatím žádné velké překvapení nebude. O problematice se ale alespoň začíná veřejně diskutovat a to by mohl být začátek skutečných změn k lepšímu.