ABBYY TechExchange Europe 2018

17.12.2018

25. září 2018 se uskutečnila na nizozemské půdě v Amsterodamu konference, která představila nejnovější vývoj v oblasti rozpoznávání a vytěžování dat z dokumentů. Jak se nás týkají moderní trendy? Co z toho plyne pro Vás?

Vysoká koncentrace expertů na jednom místě, v jednom dni. Tak bychom mohli popsat konferenci ABBYY TechExchange Europe 2018, která měla za úkol informovat o nejžhavějších novinkách ve světě rozpoznávání a vytěžování dat, umělé inteligence a mobilního skenování.

Za naši společnost se do Amsterodamu vydal Michal Šos, který se vrátil s kupou zajímavých užitečných informací a s novinkami pro systém DOCU-X.

Klasifikace dokumentů a budoucnost umělé inteligence ve vytěžování dat

ABBYY jako globální poskytovatel řešení a služeb v oblasti "content intelligence" pomáhá rozvíjet použití umělé inteligence (AI = Artificial Intelligence) při rozpoznávání a vytěžování dat.

Dnes se AI využívá primárně pro klasifikaci dokumentů, tedy k automatickému určení typu dokumentu (jestli jde o fakturu, smlouvu, bankovní výpis apod.). ABBYY používá 2 typy klasifikace, které se dají kombinovat:

1. Image classifier: Nevyužívá OCR, data identifikuje pouze na základě vzhledu první stránky dokumentu (v budoucnu zvládne i další strany).

2. Text classifier (OCR): Využívá pouze vytěžená data (slova). Rozhoduje se na základě obsahu dokumentu.

"AI při klasifikaci dokumentů vidí každý pixel dokumentu - vidí více než člověk. Má tedy více informací pro rozhodování o typu dokumentu."

Aktuálním trendem je implementovat umělou inteligenci také do OCR systémů a využít tak naplno potenciál "content intelligence".

Termín "content intelligence" (AI + content) můžeme definovat jako strategii, která používá systémy s umělou inteligencí k získávání dat z dokumentů. Tím dochází k zefektivnění procesů ve firmách a v důsledku toho i celého podnikání.

Content intelligence se tak stává jedním z pilířů pro systémy sloužící pro rozpoznávání a vytěžování dat.

Novou verzi Finereader Engine 12 chystáme i pro naše řešení

Konference do detailu představila novou verzi sady pro vývoj softwaru, která umožňuje integraci systémů pro rozpoznávání textu a vytěžování dat z dokumentů.

Finereader Engine 12 (dále FRE12) používá neuronové sítě a pro co nejrychlejší zpracování využívá výkon GPU. Podporuje nejvíce jazyků ze všech OCR řešení na trhu. Usnadňuje tak podnikům integraci funkcí rozpoznávání a sběru dat a funguje i v aplikacích běžících ve virtuálních a cloudových prostředích.

Pro naše řešení v současné době chystáme přechod na novou verzi FRE12. Následuje testování technologie klasifikace dokumentů pomocí AI, abychom ji následně zakomponovali jako součást DOCU-X OCR.

Mobilní skenování a rozpoznávání textu v reálném čase

Na konferenci jsme se setkali s další oblastí, která je budoucností v rozpoznávání a vytěžování dat - "Mobile scanning and OCR". Jde o model "real time recognition", tedy o rozpoznávání textu v reálném čase.

V praxi to znamená odlišný přístup od klasického vytěžování, kdy se rozpoznává text z naskenovaného dokumentu.

Při rozpoznávání dat z dokumentů v reálném čase se dynamicky, ještě před pořízením fotky dokumentu na mobilním zařízení, rozpoznávají texty z fotoaparátu a porovnávají se s pravidly definovanými pro daný "skenovaný" dokument.

Uživatel tak vidí výsledky vytěžení ještě před výsledným pořízením snímku dokumentu.

Právě mobilní skenování má to specifikum, že výsledná "fotografie" nikdy nedosahuje kvalit dokumentu naskenovaného na dokumentovém skeneru, proto zobrazení výsledků vytěžování ještě před reálným pořízením snímku zde získává na důležitosti.

I tuto technologii pro mobilní skenování chceme zakomponovat do nové verze DOCU-X DMS. Mobilní klient tak může při pořizování dokumentu současně rovnou vytěžit požadovaná data a uložit vše do DOCU-X DMS.


Konference nám nabídla spoustu podnětů, jak vylepšit náš software. 

Prozkoumejte, co všechno za vás DOCU-X vyřeší.