Medizin, Medienarchive, Automotive – intelligente Software meistert Zeichenerkennung in allen Branchen
Eine Vielzahl von Texten und Informationen wird heute digitalisiert und maschinell erfasst. Dennoch gelingt es den wenigsten Programmen, die Lesefähigkeit des Menschen zu erreichen und Dokumente fehlerfrei zu erkennen. Besonders alte und schwer erkennbare Texte bilden Herausforderungen, denen sich das Fraunhofer IAIS im Rahmen des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Projekts »DeepER« gestellt hat. In Zusammenarbeit mit der CIB software GmbH hat ein Fraunhofer-Team jetzt eine Künstliche Intelligenz entwickelt, die Zeichen mit menschenähnlicher Genauigkeit erkennt. Einen praxisnahen Einblick in die DeepER-Engine gibt es auf der BMBF-Mittelstandskonferenz 2018 »KMU gestalten die Digitalisierung« am 19. und 20. November 2018 in Berlin.
Mit Technologien des Deep Learnings, die in den vergangenen Jahren viele Bereiche unserer Gesellschaft revolutioniert haben, hat das Team des Fraunhofer IAIS eine Engine für Optical Character Recognition (ORC) entwickelt. Mit mehr als 2000 Fonts sowie eigens erzeugten, schwer erkennbaren Zeichen haben die Forscher die künstlichen neuronalen Netze trainiert. So gelingt es der Technologie, die im Rahmen des vom BMBF geförderten Projektes »Deep learning based optical character recognition – DeepER« entstanden ist, neben gut lesbaren Materialien auch alte Schriften, Fotos mit mangelhafter Belichtung und schlecht erhaltene Dokumente zu entziffern. Selbst Hinweisschilder auf Baustellen oder Plakattexte erkennt die Software, was ihren Einsatz über die klassische Dokumentenanalyse hinaus in anderen Bereichen ermöglicht, etwa dem Autonomen Fahren oder der Hilfe Sehbehinderter, denen künftig zum Beispiel Texte in ihrer Umgebung vorgelesen werden könnten.
»Eine Vielzahl der kommerziellen Engines ist offenbar primär auf gute Materialien ausgelegt«, sagt Iuliu Konya, Projektleiter am Fraunhofer IAIS. »Hier liegt die Trefferquote bei nahezu perfekten 99 Prozent. Sobald die Qualität des Dokuments abnimmt, verringert sich die Erkennungsrate jedoch dramatisch. Deshalb haben wir uns insbesondere auf schwer erkennbare Dokumente konzentriert und so auf unserer Fraunhofer-Expertise im Maschinellen Lernen aufbauend eine schnelle und robuste Allzweck-OCR-Engine mit menschenähnlicher Genauigkeit geschaffen – auch bei schwierigen Scans.«
In einem Projektzeitraum von 27 Monaten haben die Wissenschaftler die OCR-Engine trainiert – jedes Zeichen wurde mindestens 5000 mal in verschiedenen Variationen zum Training der Netze verwendet. Historische und neue Texte, verschiedene Graustufen – dort wo es an Trainingsdaten mangelte, erzeugten die Forscher zudem selbst synthetische Texte. Nachdem die Software zunächst anhand einzelner annotierter Zeichen trainiert wurde, ist sie jetzt dazu in der Lage, innerhalb ganzer Zeilen selbstständig die jeweiligen Buchstaben und Satzzeichen zu erkennen. Binnen kürzester Zeit werden Zeitungsseiten, juristische Dokumente oder medizinische Akten erfasst.
»Eine besondere Herausforderung war die Annotation der jeweiligen Daten«, erklärt Iuliu Konya. »Denn damit die KI lernen kann, benötigen wir zusätzlich zu den Texten die bereits digitalisierten Informationen, die dahinterstehen. Nur so können wir das vermeintlich Erkannte mit dem tatsächlichen Inhalt vergleichen.«
Für Evaluationszwecke sowie Wissens- und Datentransfer stellte das Fraunhofer IAIS den Technologiekern der Engine seinem Projektpartner CIB software GmbH zur Verfügung. CIB trainierte die neuronalen Netze eigenständig und stellt sie im Web frei zur Verfügung. Nutzerinnen und Nutzer können ab sofort ihre Dokumente auf der Plattform hochladen und in durchsuchbare PDFs umwandeln lassen. Darüber hinaus haben sie die Möglichkeit, zum Training der Engine beizutragen, indem sie die Analyse-Ergebnisse der Engine für den eigenen Zweck optimieren. Diese Korrekturen liefern der Software neues Trainingsmaterial, um die Erkennungsqualität fortlaufend zu verbessern.
Einen praxisnahen Einblick in die DeepER-Engine erhalten Gäste der BMBF-Mittelstandskonferenz 2018 »KMU gestalten die Digitalisierung« am 19. und 20. November 2018 in Berlin. Im Mercure-Hotel MOA stellen Projektbeteiligte des Fraunhofer IAIS und der CIB software GmbH das gemeinsame Projekt vor und bieten exklusive Beratung und Einblicke.
Mit Technologien des Deep Learnings, die in den vergangenen Jahren viele Bereiche unserer Gesellschaft revolutioniert haben, hat das Team des Fraunhofer IAIS eine Engine für Optical Character Recognition (ORC) entwickelt. Mit mehr als 2000 Fonts sowie eigens erzeugten, schwer erkennbaren Zeichen haben die Forscher die künstlichen neuronalen Netze trainiert. So gelingt es der Technologie, die im Rahmen des vom BMBF geförderten Projektes »Deep learning based optical character recognition – DeepER« entstanden ist, neben gut lesbaren Materialien auch alte Schriften, Fotos mit mangelhafter Belichtung und schlecht erhaltene Dokumente zu entziffern. Selbst Hinweisschilder auf Baustellen oder Plakattexte erkennt die Software, was ihren Einsatz über die klassische Dokumentenanalyse hinaus in anderen Bereichen ermöglicht, etwa dem Autonomen Fahren oder der Hilfe Sehbehinderter, denen künftig zum Beispiel Texte in ihrer Umgebung vorgelesen werden könnten.
Schnelle und robuste Allzweck-OCR-Engine
»Eine Vielzahl der kommerziellen Engines ist offenbar primär auf gute Materialien ausgelegt«, sagt Iuliu Konya, Projektleiter am Fraunhofer IAIS. »Hier liegt die Trefferquote bei nahezu perfekten 99 Prozent. Sobald die Qualität des Dokuments abnimmt, verringert sich die Erkennungsrate jedoch dramatisch. Deshalb haben wir uns insbesondere auf schwer erkennbare Dokumente konzentriert und so auf unserer Fraunhofer-Expertise im Maschinellen Lernen aufbauend eine schnelle und robuste Allzweck-OCR-Engine mit menschenähnlicher Genauigkeit geschaffen – auch bei schwierigen Scans.«
In einem Projektzeitraum von 27 Monaten haben die Wissenschaftler die OCR-Engine trainiert – jedes Zeichen wurde mindestens 5000 mal in verschiedenen Variationen zum Training der Netze verwendet. Historische und neue Texte, verschiedene Graustufen – dort wo es an Trainingsdaten mangelte, erzeugten die Forscher zudem selbst synthetische Texte. Nachdem die Software zunächst anhand einzelner annotierter Zeichen trainiert wurde, ist sie jetzt dazu in der Lage, innerhalb ganzer Zeilen selbstständig die jeweiligen Buchstaben und Satzzeichen zu erkennen. Binnen kürzester Zeit werden Zeitungsseiten, juristische Dokumente oder medizinische Akten erfasst.
»Eine besondere Herausforderung war die Annotation der jeweiligen Daten«, erklärt Iuliu Konya. »Denn damit die KI lernen kann, benötigen wir zusätzlich zu den Texten die bereits digitalisierten Informationen, die dahinterstehen. Nur so können wir das vermeintlich Erkannte mit dem tatsächlichen Inhalt vergleichen.«
DeepER auf der BMBF-Mittelstandskonferenz in Berlin
Für Evaluationszwecke sowie Wissens- und Datentransfer stellte das Fraunhofer IAIS den Technologiekern der Engine seinem Projektpartner CIB software GmbH zur Verfügung. CIB trainierte die neuronalen Netze eigenständig und stellt sie im Web frei zur Verfügung. Nutzerinnen und Nutzer können ab sofort ihre Dokumente auf der Plattform hochladen und in durchsuchbare PDFs umwandeln lassen. Darüber hinaus haben sie die Möglichkeit, zum Training der Engine beizutragen, indem sie die Analyse-Ergebnisse der Engine für den eigenen Zweck optimieren. Diese Korrekturen liefern der Software neues Trainingsmaterial, um die Erkennungsqualität fortlaufend zu verbessern.
Einen praxisnahen Einblick in die DeepER-Engine erhalten Gäste der BMBF-Mittelstandskonferenz 2018 »KMU gestalten die Digitalisierung« am 19. und 20. November 2018 in Berlin. Im Mercure-Hotel MOA stellen Projektbeteiligte des Fraunhofer IAIS und der CIB software GmbH das gemeinsame Projekt vor und bieten exklusive Beratung und Einblicke.