Projekt “Named Entity Linking” (NEL)

Das Projekt “Named Entity Linking” (NEL) befasst sich mit der semantisch korrekten Verlinkungen von Texten zu einer Wissensbasis. Im Studienverbund “Digital Business” arbeiteten Gerald Petz, Dietmar Nedbal und Werner Wetzlinger unter Kooperation mit dem Unternehmen HCSolutions an der Entwicklung der notwendigen Technologien und konnten das Projekt dieses Jahr erfolgreich beenden.

Ausgangssituation und Zielsetzung des Datenanalyse-Projekts

Für viele Aufgaben im Bereich der Textverarbeitung ist die Erkennung von Entitäten ein wichtiger Ausgangspunkt. Unter „Named Entity Recognition“ versteht man Verfahren, die die Begriffe eines Textes bestimmten Klassen zuordnen. In vielen Anwendungsszenarien ist aber darüber hinaus nicht nur von Interesse, welche Arten von Entitäten in einem Text vorkommen, sondern wie die Entitäten semantisch verknüpft werden können („Named Entity Linking“). Die Aufgabe von NEL ist es, Begriffe in einem Text richtig zu einer bestehenden Knowledge-Base zu verknüpfen.

Viele Ansätze zur Verlinkung von Entitäten verwenden als Knowlege-Base Wikipedia. Obwohl Wikipedia über Millionen von Artikeln verfügt, ist diese Wissensbasis für speziellere Domänen und Kontexte nicht ausreichend. Beispielsweise sind in Wikipedia bei weitem nicht alle österreichischen Firmennamen vertreten, Personennamen kommen vergleichsweise wenig vor, etc.

Ziel des Projektes ist es daher, ein lernendes Named Entity Linking System zu konzipieren und zu implementieren. Dieses lernende Named Entity Linking System bezieht verschiedene Wissensbasen als Referenz ein und verwendet Anwenderfeedback zur Verbesserung des Named Entity Linking.

Methodisches Vorgehen

Zuerst wurde eine umfassende Literaturrecherche und –analyse durchgeführt sowie verschiedene Tools getestet. Die Analyse zeigte, dass es bereits mehrere Entwicklungen gibt. Deren Leistungsfähigkeit ist aber schwer zu vergleichen, da unterschiedliche Datenbasen, Sprachen und Texte zur Bearbeitung verwendet werden. Im Zuge der Analyse wurden vom Auftraggeber zwei potenzielle Einsatzszenarien definiert: die Unterstützung der Bewertung von Projektanträgen und Projekt-Proposals (sowohl in deutscher als auch in englischer Sprache) und die Aufbereitung von Dokumenten wie Lebensläufe und Bewerbungsschreiben. Um die Szenarien möglichst realitätsnah testen zu können, wurden Projektanträge und Lebensläufe verwendet.

Auf Basis der Analyse wurde ein Konzept für die Disambiguierung entwickelt. Das Konzept sieht mehrere Phasen vor: Pre-Processing des Textes (mit Spracherkennung, Verwendung von Black- und White-Listen), Spotting zur Identifikation von potenziell verlinkbaren Texten, Disambiguierung auf Basis von mehreren Knowledge-Bases sowie ein Post-Processing mit einer „Feedback“-Schleife durch den User.

Die Implementierung des Konzepts wurde auf Basis des Open-Source-Frameworks „Dexter“ durchgeführt. Es wurden mehrere Änderungen und Ergänzungen in Dexter vorgenommen, beispielsweise die Anpassung an die gewünschte Ziel-Umgebung (Apache/Tomcat), die Verwendung mehrerer Knowledge-Bases, der Aufbau von Knowledge-Bases (eine Firmen-KB und eine Skills-KB) und der entsprechenden Datenmodelle auf Java-Basis. Das geänderte und ergänzte Framework „DexterNG“ wird derzeit auf der Hardware-Plattform der FH Steyr betrieben.

Die Literaturanalyse sowie die Implementierung haben einige Verbesserungspotenziale aufgezeigt. Mögliche Optimierungsansätze liegen beispielsweise beim Spotting; manche Autoren vertreten die Ansicht, dass dies der wichtigste Ansatzpunkt sei, da von diesem Schritt die Qualität des Gesamtsystems abhängig ist. Der Dictionary-Spotter in DexterNG kann beispielsweise durch Filter, POS-Tags, etc. verbessert werden. Auch die Disambiguierung selbst kann verbessert werden. Herausforderungen ergeben sich auch insofern, wenn hohe Aktualität notwendig und sinnvoll ist, weil entsprechend große Datenmengen (z.B. von Wikipedia) in kurzer Zeit bearbeitet werden müssen.

Ergebnisse und Nutzen aus dem Datenanalyse-Projekt

Der im Forschungsprojekt entwickelte “Wissensgraph” ist eine Software-Plattform, die aus unternehmensexternen Quellen (Social Media, Rechtsdatenbanken, Patentdatenbanken, Suchmaschinen) und unternehmensinternen Quellen (Datenbanken, Enterprise Content Management Systemen, etc.) Daten aggregiert, analysiert und visualisiert. Die Software-Plattform lernt dabei aus der Interaktion mit seinen BenutzerInnen und liefert relevanzbasierte Ergebnisse. Diese werden dabei mit unterschiedlichen Visualisierungsarten – Graphen, Clouds, Circles, etc. – dargestellt. Zur Unterstützung der Analysen erfolgt eine Synchronisation in Echtzeit mit verschiedenen Wissensbasen wie beispielsweise Wikipedia. Weiters können semantische und linguistische Analysen durchgeführt werden. Um große Datenvolumen bewältigen zu können, werden im Hintergrund Big Data Technologien eingesetzt.

Beispiel für automatisierte Annotierung
Beispiel für automatisierte Annotierung

Ein Beispiel für eine automatisierte Annotierung von Textestellen auf Basis der im Projekt entwickelten Technologien findet sich oberhalb. Die entwickelte Technologie und die Plattform werden mittlerweile auch für die kommerzielle Nutzung durch HCSolutions angeboten: https://www.tomo-base.at

Forschungsteam mit Expertise in der Datenanalyse

Studiengangsleiter Marketing und Elektronik Business, Gerald Petz

Prof. Dr. Gerald Petz

Dr. Gerald Petz ist Studiengangsleiter des Studiengangs “Marketing und Electronic Business. Zudem ist er auch als Forscher im Bereich der Datenanalyse und -verarbeitung tätig und leitete unter anderem auch Projekte rund um die semantische Analyse von Social Media Inhalten. Diverse wissenschaftliche Publikationen sind in diesem Zuge erschienen.

Mehr Details zu seiner Forscherkarriere mit Digital Business Projekten und Publikationen sind hier zu finden: Experten-Profil in der Wissensdokumentation der FH Oberösterreich

Bei Anfragen zu wissenschaftlichen Projekten im Data Analytics Bereich nehmen Sie gerne mit uns Kontakt auf: dbm@fh-steyr.at

Mehr allgemeine Infos zur Forschung im Digital Business: www.digital-business.at/forschung-entwicklung-digital-business