Erstellen Sie Term-Netzwerke basierend auf Textanalyse

    Im Auftrag des berühmten Autors Dmitry Lande (zum Beispiel „Suche nach Wissen im Internet“, Internet. Navigation in komplexen Netzwerken: Modelle und Algorithmen ) veröffentliche ich eines seiner letzten Werke.

    Derzeit relevant sind die Aufgaben des Aufbaus von Ontologien in bestimmten Wissensgebieten. Offensichtlich ist der Aufbau einer großen Branchen-Ontologie ein komplexes Problem, das hohe Ressourcenkosten erfordert. In jedem Fall ist eine bestimmte Phase bei der Erstellung gemeinsamer Ontologien die Erstellung der entsprechenden Thesauren, terminologischer Ontologien.



    In diesem Artikel schlagen wir eine Methodik zum Aufbau eines Netzwerks natürlicher Hierarchien von Begriffen vor, die als „Quasi-Ontologie“ betrachtet werden kann und die Grundlage für die Bildung der entsprechenden terminologischen Ontologie bildet. Das Netzwerk der natürlichen Hierarchie von Begriffen basiert auf informationsrelevanten Elementen des Textes, unterstützenden Wörtern und Phrasen, deren Methode zur Identifizierung in [1, 2] angegeben ist. Die Verwendung solcher Elemente ermöglicht es, Suchbilder zu bilden, um ganze Wissensbereiche als Grundlage für die weitere Konstruktion gemeinsamer Ontologien abzudecken. Unterstützende Wörter und Ausdrücke zum Aufbau natürlicher Hierarchien von Begriffen werden unter Berücksichtigung ihrer Eigenschaften wie Diskriminanzkraft ausgewählt. Diese Eigenschaft allein reicht jedoch nicht aus, um Thesauren und Ontologien zu konstruieren. Manchmal Wörter mit geringer Unterscheidungskraft, insbesondere

    Die Bildung eines Netzwerks natürlicher Begriffshierarchien (SEIT) basiert auf dem Inhalt von Textkorpussen der entsprechenden Orientierung. Die "Natürlichkeit" der Begriffshierarchien wird in diesem Fall als Ablehnung von speziellen Methoden der semantischen Analyse bei der Bildung eines Netzwerks verstanden. Alle Verbindungen in einem solchen Netzwerk werden durch die natürliche Verwendung von Wörtern und Phrasen bestimmt, die aus Textkörpern mit statistisch signifikanten Volumina extrahiert werden. Ein Netzwerk von natürlichen Begriffshierarchien, die vollständig automatisch erstellt werden, kann als Grundlage für die weitere automatisierte Bildung der terminologischen Ontologie angesehen werden.

    Der Algorithmus zur Bildung eines Netzwerks natürlicher Hierarchien von Begriffen, der in diesem Artikel betrachtet wird, sieht die Implementierung einer Abfolge von Schritten vor, die die vorläufige Verarbeitung des Originaltextkorpus, die Definition und Sortierung von Begriffen, die Auswahl der erforderlichen Anzahl der signifikantesten (die größten Knoten des verdichteten horizontalen Sichtbarkeitsgraphen [3]), die Konstruktion der SEIT und seine Anzeige. Betrachten Sie diese Schritte im Detail.

    1. In der ersten Phase wird der ursprüngliche Textkörper ausgewählt. Als Beispiel eines solchen Korpus betrachten wir nachfolgend eine Reihe von Anmerkungen zu elektronischen Preprints arXiv (www.arxiv.org) für den Zeitraum 2007-2010 zum Thema Information Retrieval (Rubrik cs.IR) mit einem Umfang von 550 Einträgen.

    Die Vorverarbeitung eines solchen Textkorpus umfasst die Auswahl von Textteilen von Datensätzen, den Ausschluss von Nicht-Textzeichen und das Stempeln.

    2. In der zweiten Stufe wird jedem einzelnen Wort aus dem Textkorpus eine Bewertung seiner "Diskriminanzkraft", nämlich TFIDF, zugeordnet, die in kanonischer Form dem Produkt der Häufigkeit des Wortes (Termhäufigkeit) im Textfragment durch den binären Logarithmus des Kehrwerts der Menge entspricht Textfragmente, in denen dieses Wort gefunden wurde (Inverse Document Frequency) [4].

    3-4. Das gleiche wie im vorherigen Schritt wird nur für Phrasen mit zwei Wörtern (Bigrams) und drei Wörtern (Trigrams) durchgeführt.

    5. Für Folgen von Begriffen und ihre Gewichtungswerte durch TFIDF werden kompaktierte horizontale Sichtbarkeitsgraphen (CHVG) erstellt [1, 2] und die Wortgewichtungswerte werden unter Verwendung dieses Algorithmus neu bestimmt. Mit dieser Vorgehensweise können Sie zukünftig neben Begriffen mit hoher Diskriminanzstärke auch hochfrequente Begriffe berücksichtigen, die für das allgemeine Thema des Textkorpus von großer Bedeutung sind. Danach werden alle Terme in absteigender Reihenfolge der berechneten Gewichtungswerte der entsprechenden CHVG-Knoten sortiert.

    Die Begriffe aus dem sogenannten Stoppwörterbuch werden nicht weiter analysiert. Hierbei handelt es sich in der Regel um einen festen Satz von Servicewörtern, die für den Inhalt von Texten keine wesentliche Rolle spielen.

    6. Nach der Expertenmethode wird das benötigte SEIT-Volumen (Nummer N) ermittelt, wonach die entsprechende Anzahl von Einzelwörtern, Bigrammen und Trigrammen (insgesamt N + N + N Elemente) mit den höchsten Gewichtungswerten nach CHVG ausgewählt wird.

    7. Aus den im vorherigen Schritt ausgewählten Elementen werden Netzwerke natürlicher Begriffshierarchien aufgebaut, in denen die Begriffe selbst als Knoten betrachtet werden und die Beziehungen dem Auftreten einiger Begriffe in anderen entsprechen. In Abb. 1 zeigt das Prinzip des Aufbaus von Links SEIT. Die einzelnen geometrischen Formen in dieser Abbildung entsprechen einzelnen Wörtern.


    Abb. 1 - Bildung von Verbindungen in einem dreistufigen Netzwerk der natürlichen Hierarchie von Begriffen

    Die erste Zeile entspricht der ausgewählten Menge von Einzelwörtern, die zweite der Menge von Bigrammen und die dritte der Menge von Trigrammen. Wenn ein einzelnes Wort in das Bigramm oder Trigramm eintritt oder das Bigramm in das Trigramm eintritt, wird eine Verbindung hergestellt, die durch einen Pfeil angezeigt wird. Die vielen Knoten, denen die Begriffe entsprechen, und die Verknüpfungen bilden ein dreistufiges Netzwerk der natürlichen Begriffshierarchie.

    8. In der letzten Phase der SEIT-Bildung werden sie von Softwaretools zur Analyse und Visualisierung komplexer Netzwerke angezeigt. Um Netzwerke natürlicher Begriffshierarchien in die Datenbanken zu laden, wird eine Inzidenzmatrix des allgemein akzeptierten csv-Formats gebildet.

    Für die konstruierten Netzwerke natürlicher Hierarchien von Begriffen verschiedener Größen über den ausgewählten Textkorpus wurde die Verteilung der ausgehenden Knotengrade bestimmt, die sich als nahe an der Potenz (p (k) = C * k ^ h) herausstellte, d.h. Diese Netzwerke sind nicht skalierbar. Es stellte sich heraus, dass der Koeffizient h für Netzwerke verschiedener Größen (von 20 + 20 + 20 bis 200 + 200 + 200) zwischen 2,1 und 2,3 liegt.

    In Abb. Abbildung 2 zeigt ein kleines Netzwerk einer natürlichen Hierarchie von Begriffen der Größe 20 + 20 + 20, das nach der vom Autor vorgeschlagenen Methode spiralförmig visualisiert wird.


    Abb. 2 - Ansicht SEIT Größe 20 + 20 + 20


    In Abb. Abbildung 3 zeigt eine allgemeine Ansicht des Netzwerks der natürlichen Hierarchie von Begriffen der Größe 200 + 200 + 200, die mit dem Gephi-System (https://gephi.org/) visualisiert wird.


    Abb. 3 - Visualisierung von SEIT in Größe 200 + 200 + 200 mittels Gephi

    In Abb. Abbildung 4 zeigt die einzelnen Netzwerkfragmente der natürlichen Begriffshierarchie, die den ausgewählten Grundbegriffen entsprechen.


    Abb. 4 - Fragmente von SEIT


    So lauten in den Ergebnissen der Studien:
    • Es wird ein Algorithmus zum Aufbau von Netzwerken natürlicher Begriffshierarchien auf der Grundlage der Analyse von Textkorpussen vorgeschlagen.
    • Basierend auf diesem Algorithmus wird ein Netzwerk einer natürlichen Hierarchie von Begriffen unter Verwendung eines Textkorpus aufgebaut.
    • Untersucht werden die Eigenschaften eines Netzwerks natürlicher Hierarchien von Begriffen, die sich für ausgehende Verbindungen als skalierungsfrei erwiesen haben.
    • Es wurden Visualisierungswerkzeuge für ein Netzwerk natürlicher Begriffshierarchien ausgewählt.
    • Ein Sprachennetzwerk, das mit der vorgeschlagenen Methodik erstellt wurde, kann als Grundlage für die Erstellung einer gemeinsamen Ontologie (im betrachteten Beispiel zum Thema Informationsabruf) verwendet werden, die in der Praxis als einsatzbereites Navigationswerkzeug in Datenbanken mit relevanten Themen sowie für die Organisation des Kontextes verwendet wird Hinweise für Benutzer von Informationsabrufsystemen.


    Literatur



    1. Lande DV, Snarskii AA, Yagunova EV, Pronoza EV Die Verwendung horizontaler Sichtbarkeitsgraphen zur Identifizierung der Wörter, die die Informationsstruktur eines Textes definieren // 12. Mexikanische Internationale Konferenz für künstliche Intelligenz, 2013 .-- S. 209-215.
    2. Lande DV, Snarskii AA Kompaktes horizontales Sichtbarkeitsdiagramm für das Sprachennetzwerk // Preprint Arxiv (1302.4619)
    3. Luque B., Lacasa L., Ballesteros F., Luque J. Horizontale Sichtbarkeitsdiagramme: Genaue Ergebnisse für zufällige Zeitreihen // Physical Review E, 2009. - P. 046103-1 - 046103-11.
    4. Salton G., McGill MJ Einführung in die moderne Informationsrecherche. - New York: McGraw-Hill, 1983 - 448 p.


    Jetzt auch beliebt: