So ist die Suche nach Krediten in Antiplagiat organisiert.

Published on November 14, 2018

So ist die Suche nach Krediten in Antiplagiat organisiert.

    Wir haben Ihnen bereits interessante Statistiker von Texten vorgestellt , Artikel über den Einsatz von Autocodern in der Textanalyse besprochen und uns mit unseren neuen Suchalgorithmen für übersetzte Ausleihen und Paraphrasen überrascht . Ich beschloss, unsere Unternehmenstradition fortzusetzen und erstens den Artikel mit "T" zu beginnen und zweitens zu erzählen:

    • wie man schnell einen Textabschnitt unter Hunderten von Millionen von Artikeln findet;
    • Was wird aus dem Dokument, nachdem es auf das Antiplagiat-System heruntergeladen wurde?
    • Wie entsteht ein Bericht, der so gut wie niemand sieht, der sich aber lohnt?
    • wie man nicht alles indiziert, aber genug.




    Wie alles begann


    Im Jahr 2005 kam der Rektor einer der größten Moskauer Universitäten zu Forecsys , um ein sehr ernstes Problem zu lösen. In den Schulen bestanden die Schüler vollständig abgeschriebene Diplome und Semesterarbeiten. Wir haben mehrere hundert Arbeiten exzellenter Studenten genommen und mit einfachen Abfragen im Internet gesucht. Mehr als die Hälfte der "Ehrungen"Es stellte sich heraus, dass es sich um Gauner handelte, die ein Diplom aus dem Internet heruntergeladen und nur die Titelseite ersetzt hatten. Mehr als die Hälfte der besten Studenten, Karl! Was mit gewöhnlichen Schülern passiert ist, ist schwer vorstellbar. Die einfachste Aufgabe bestand darin, mit "ochepyatkami" nach einer Anfrage zu suchen, die Wörter enthielt. Wir haben das Ausmaß der Katastrophe deutlich gemacht. Es musste dringend etwas gelöst werden. Ausländische englischsprachige Universitäten verwendeten zu dieser Zeit bereits Lösungen, um nach Anleihen zu suchen, aber aus irgendeinem Grund überprüfte niemand die Arbeit auf Russisch.

    Ausländische Spieler wollten ihre Entscheidungen nicht der russischen Sprache anpassen. Infolgedessen wurde am 17. März 2005 die Entwicklung des ersten inländischen Systems für die Suche nach Krediten eingeleitet. Das Wort "Antiplagiat" wurde wenig später geprägt und die Domain antiplagiat.ru wurde am 28. April 2005 registriert. Wir hatten vor, die Site bis zum 1. September 2005 freizugeben, aber wie so oft bei Programmierern, hatten wir keine Zeit dazu. Der offizielle Geburtstag unserer Firma ist der Tag, an dem antiplagiat.ru seine ersten Benutzer erhielt, und zwar am 4. September. Weißt du, ich freue mich sogar darüber, denn während der Firmenfeier anlässlich des Geburtstages des Unternehmens kann jeder sicher feiern und sich keine Sorgen um den ersten Schultag seiner Kinder machen.

    Aber etwas, das ich schweife ab. Im Jahr 2005 haben wir eine Art Suchmaschine erstellt, bei der die Abfrage im Gegensatz zu Yandex und Google nicht aus zwei oder drei Wörtern besteht, sondern aus einem ganzen Text, der aus mehreren Sätzen besteht. Daher ist es sinnvoll, "Anti-Plagiat" zu verwenden, wenn Sie Text mit 1000 Zeichen (etwa eine halbe Seite) haben.

    Während der Entwicklung des Dienstes wurde ein Prototyp für PHP (Webpart) und Microsoft SQL Server (Suchmaschine) erstellt. Es wurde sofort klar, dass dies nicht abheben und langsam an mehreren Millionen Dokumenten arbeiten würde. Deshalb musste ich meine Suchmaschine ausschalten. Jetzt ist das System in C # und Python geschrieben, verwendet PostgreSQL und MongoDB (in der Tat viel mehr, aber mehr dazu im nächsten Artikel). Unsere Suchmaschine ist noch vollständig selbst entwickelt. Put magSchreiben Sie in die Kommentare, wenn Sie mehr über die Geschichte des Systems, die sich ändernden Prozesse des Unternehmens und die Hardware erfahren möchten, auf der Antiplagiat an verschiedenen Punkten in Ihrem Leben gearbeitet hat und jetzt funktioniert.

    Das Wort, das den Namen des Unternehmens gab, ist jetzt ein Begriff aus dem Haushalt. Oft findet man in der Suchmaschine Ausdrücke wie „Auf Plagiat prüfen“, „Plagiat erhöhen“. Jeder, der in irgendeiner Weise mit dem Bereich der Kreditaufnahme in Russland und dem nahen Ausland verbunden ist, versucht, das Wort "Antiplagiat" für die Erhöhung der Suchergebnisse zu verwenden. Wir werden oft nach anderen "Anti-Plagiaten" gefragt. Also, Antiplagiat ist eines, es ist eine Marke und ein Name unseres Unternehmens.

    Ganz zu Beginn der Implementierung des Suchdienstes für Ausleihen haben wir beschlossen, mit dem Text als Zeichenfolge zu arbeiten. Sofort wurden verschiedene semantische Konstruktionen aus Texten, die Suche nach Bedeutungen, die Analyse von Sätzen usw. abgelehnt. Die von uns gewählte Lösung bietet zwei große Vorteile: hohe Suchgeschwindigkeit und relativ wenig Suchindizes.

    Bis heute gibt es drei Produkte in unserer Linie. Sie unterscheiden sich in der Funktionalität, enthalten aber in ihrer Grundlage das gleiche Funktionsprinzip der Entleihsuche. In diesem Artikel werde ich darüber sprechen, wie unsere klassische Suche nach Ausleihen funktioniert - die Funktionalität, die von Anfang an zur Grundlage des Dienstes wurde und sich konzeptionell bis jetzt nicht geändert hat. Das Suchschema für das Ausleihen ist, wie Sie im Bild sehen, einfach und unkompliziert, wie das Zeichnen einer Eule. Zuerst bekommen wir das Dokument vom Benutzer, dann extrahieren wir den Text daraus. Als nächstes suchen wir in diesem Text nach einer Entlehnung, erhalten „Revisionen“ (so nennen wir den Bericht in einem Suchmodul) und sammeln schließlich Revisionen in einem großen Bericht, den wir dem Benutzer als Ergebnis anzeigen.



    Mal sehen, wie das alles im Detail passiert.

    Text extrahieren


    Vor allem des „Anti-Plagiat“ ist der einzige Suchdienst TextAusleihen, dh wir müssen den Text aus allen Dokumenten extrahieren, um weiter damit arbeiten zu können. Das System unterstützt das Herunterladen von Dokumenten in den Formaten docx, doc, txt, pdf, rtf, odt, html, pptx und einigen weiteren (nie verwendeten) Formaten. Alle diese Dokumente können Sie auch im Archiv herunterladen (7z, zip, rar). Diese Methode war beliebt, als wir nicht die Möglichkeit hatten, mehrere Dokumente gleichzeitig über eine Weboberfläche herunterzuladen. Nachfolgend sehen Sie ein Diagramm der Beliebtheit von herunterladbaren Dokumentformaten im Unternehmensbereich unseres Systems. Es zeigt, wie doc über mehrere Jahre von docx abgelöst wird und der Anteil von pdf allmählich zunimmt. Wenn Sie txt nicht berücksichtigen (Extraktion des Textes ist trivial), dann ist pdf für uns am angenehmsten. PDF im Ausland ist ein De-facto-Standard. Es veröffentlicht Artikel und bereitet Studienarbeiten vor. Laut unserer Statistik gewinnt pdf in Russland und den GUS-Staaten allmählich an Popularität. Wir selbst fördern dieses Format bei den Massen und empfehlen, Dokumente darin hochzuladen.

    Wir haben die Downloadformate für Dokumente für Privatkunden auf pdf und txt beschränkt, weshalb wir den Ressourcenverbrauch und die Kosten für die Unterstützung eines kostenlosen Dienstes gesenkt haben. Müssen Sie den Text überprüfen und das System nicht testen? Was ist der Unterschied in welchem ​​Format, um es herunterzuladen?

    Die nächst einfachere Methode zum Extrahieren von Text ist docx, da es sich in der Tat um ein Zip-Archiv mit XML handelt, das einfach zu verarbeiten ist und vieles auf einer niedrigen Ebene erledigt werden kann.

    Das Schwierigste für uns ist doc. Dieses Format wurde lange Zeit geschlossen, und jetzt gibt es eine Reihe von Implementierungen. Das neueste Microsoft Word, das .docx nicht unterstützte (obwohl durch das Microsoft Office Compatibility Pack), wurde bereits vor 20 Jahren veröffentlicht und in Microsoft Office 97 aufgenommen. Das Format verwendet OLE in sich selbst, das später in COM und ActiveX gewachsen ist. Alles ist binär und an einigen Stellen inkompatibel zwischen den Versionen. Im Allgemeinen ein schrecklicher Traum eines modernen Programmierers. Es ist gut, dass das DOC-Format allmählich aus der Szene verschwindet. Ich denke, es ist an der Zeit, dass wir ihm helfen, in den Ruhestand zu gehen. In Kürze werden wir die Benutzer gezielt warnen, dass dieses Format veraltet ist.



    Also zurück zum Bericht. Wir haben die Datei bekommen und fingen an, den Text zu extrahieren. Zusammen mit dem Text extrahiert das System auch die Positionen von Wörtern auf den Seiten, um unseren Benutzern das Markup des Ausleihberichts auf dem Dokument selbst anzeigen zu können. Gleichzeitig suchen wir nach technischen Bypässen von Antiplagiat.

    Sobald „Anti-Plagiat“ auftauchte, das den Prozentsatz der Originalität anzeigt, gab es auch diejenigen, die sich mit minimalem Aufwand einem Ausleihtest unterziehen wollten, sowie Personen, die diesen Service für Geld anboten. Das Problem ist, dass der numerische Parameter eine Auswertung erfordert. Es ist so einfach - anstatt das Werk mit dem System als Werkzeug zu lesen, lesen Sie es nicht, sondern bewerten Sie es anhand des prozentualen Anteils der Originalität! Es war dieses Problem, das eine Richtung wie das Stimmen von Werken hervorrief (eine Änderung des Textes, um den Prozentsatz der Originalität des Werkes zu erhöhen). Lesen Sie mehr über Probleme in universitären Prozessen im Artikel „Zur Praxis der Erkennung von Anleihen an russischen Universitäten“ .

    In fremden Systemen lohnt es sich praktisch nicht, nach dem Problem zu suchen, technische Runden zu erkennen und ihnen entgegenzuwirken. Tatsache ist, dass eine sehr harte Bestrafung derjenigen folgen wird, die von der „Finte mit den Ohren“ aufgedeckt wird - ein Abzug und ein unauslöschlicher Fleck auf dem wissenschaftlichen Ruf, der mit einer weiteren Karriere unvereinbar ist. In unserem Fall ist die Situation vor dem Comic einfach: "Oh, das ist ein System, das etwas vermasselt hat!", "Oh, ich bin es nicht, es ist es selbst!". Der Student wird höchstwahrscheinlich zur Überarbeitung geschickt. Tatsache ist, dass das Abschreiben leider nicht peinlich ist.

    Aber wieder abgelenkt. Eine andere Möglichkeit, Text zu extrahieren, ist OCR. Wir drucken das Dokument auf einem virtuellen Drucker und erkennen es dann. Lesen Sie dazu den Artikel "Erkennung von Bildern im Dienst von" Antiplagiat " .

    Nun ein kleiner Teil unserer Geschichte über die Textextraktion. Zuerst haben wir die Texte mit Hilfe von IFilters extrahiert. Sie sind nur unter Windows langsam und geben keine Formatierungsinformationen zurück. (Es ist nicht klar, wo sich der weiße Text auf einem weißen Hintergrund befindet. Sie können die Ausleihblöcke dann nicht direkt im Dokument des Benutzers markieren.) Wir dachten, dass diese Probleme gelöst werden könnten, wenn wir kostenpflichtige Bibliotheken verwenden würden, aber selbst hier fanden wir Einschränkungen: Noch unter Windows sehen sie keine Formeln, manchmal fallen sie auf speziell vorbereitete Dokumente (verschiedene Bibliotheken auf unterschiedlichen!). Die nächste Idee war, alle eingehenden Dokumente mit OCR zu versehen. Dieser Ansatz ist jedoch sehr ressourcenintensiv (Verarbeitung von nur 10 Seiten pro Minute auf einem einzelnen Kern) und der Text wird an einigen Stellen nicht präzise extrahiert.

    Wir haben keine Silberkugel gefunden, obwohl wir ein paarmal dachten, das sei es, Glück. Nachdem wir jedoch später ein wenig damit gelebt hatten, wurde uns klar, dass es wieder eine Erfahrung war. Extrahieren von Texten in einem engen Verhältnis zwischen Leistung (Sie müssen Text aus Hunderten von Dokumenten pro Minute extrahieren), Zuverlässigkeit (Sie müssen Text aus allem extrahieren), Funktionalität (Formatierung, Problemumgehungen, das ist alles). Jetzt arbeiten alle oben genannten und ein wenig mehr für uns. Wir experimentieren ständig mit diesem Bereich und suchen weiterhin unser Glück.

    Der Text wird extrahiert, Bypässe werden gefunden und teilweise beseitigt, wir suchen nach Leihgaben!

    Suche ausleihen


    Die im Suchverfahren umgesetzte Idee wurde von Ilya Segalovich und Yuri Zelenkov vorgeschlagen (siehe zum Beispiel den Artikel: Vergleichende Analyse von Methoden zur Bestimmung von Fuzzy-Duplikaten für Webdokumente ). Ich sage dir, wie es bei uns funktioniert. Nehmen wir zum Beispiel den Satz: "Dekret des Präsidenten der Russischen Föderation vom 7. Mai 2012 N 596" Über die langfristige staatliche Wirtschaftspolitik "."

    1. Wir brechen Sätze in Wörter, werfen Zahlen, Interpunktion, stoppen Wörter. Wir lemmatisieren (normalisieren) alle Wörter.
    2. Wenn wir Wörter durch Hashing in ganze Zahlen verwandeln, erhalten wir eine Reihe von Zahlen.
    3. Wir nehmen die ersten drei Hashes, dann 2, 3, 4. Hash, dann 3, 4, 5. und so weiter bis zum Ende der Reihe von Hashes. Das sind Schindeln - Fliesen. Diese Methode erhielt ihren Namen aufgrund einer solchen gekachelten Überlappung von Mengen. Jedes Plättchen wird zu einem Objekt zusammengefügt und erneut gehasht.
    4. Sortieren Sie die resultierenden Zahlen, wir erhalten ein geordnetes Array von ganzen Zahlen. Dies ist die Basis für die Suche.



    Jetzt brauchen wir für die Suche eine magische Funktion, die nach einer solchen Liste von Hashes Dokumente, geordnet nach der Abnahme der Anzahl übereinstimmender Hashes, in ein Quelldokument verwandelt. Diese Funktion sollte schnell funktionieren, weil Wir wollen nach Milliarden von Dokumenten suchen. Um eine solche Menge schnell zu finden, benötigen wir einen Reverse-Index, der gemäß dem Hash eine Liste von Dokumenten zurückgibt, in denen dieser Hash existiert. Wir haben eine solche riesige Hash-Tabelle implementiert. Im Gegensatz zu unseren älteren Suchmaschinen speichern wir diese Tabelle in ssd, nicht im Speicher. Eine solche Leistung ist für uns völlig ausreichend. Die Indexsuche nimmt einen kleinen Teil der Zeit des gesamten Dokumentverarbeitungszyklus in Anspruch. So läuft die Suche ab:

    Phase 1. Suche nach Index

    Für jeden Hash des Abfragetextes erhalten wir eine Liste der Bezeichner der Quelldokumente, in denen er vorkommt. Als Nächstes ordnen wir die Liste der Bezeichner von Quelldokumenten nach der Anzahl der Hashes, die im Abfragetext gefunden wurden. Wir erhalten eine Rangliste der Dokumente, die für die Quelle der Ausleihe in Frage kommen.

    Phase 2. Erstellen Sie eine Revision

    Für einen großen Text kann die Anfrage der Kandidaten ungefähr 10 Tausend betragen. Dies ist immer noch eine Menge, um jedes Dokument mit dem Text der Anfrage zu vergleichen. Wir handeln gierig, aber entschlossen. Wir nehmen die erste Dokumentquelle, führen einen Vergleich mit der Textanforderung durch und schließen von allen anderen Kandidaten die Hashes aus, die bereits in diesem ersten Dokument enthalten waren. Entfernen Sie aus der Liste der Kandidaten diejenigen, die Null-Hashes haben, und sortieren Sie die Kandidaten nach der neuen Anzahl von Hashes neu. Wir nehmen das erste Dokument aus der neuen Liste, vergleichen es mit dem Quelltext, löschen die Hashes, löschen die Null-Kandidaten und sortieren die Kandidaten neu. Wir tun dies 10 bis 20 Mal. In der Regel reicht dies aus, damit die Liste austrocknet, oder es sind nur noch Dokumente enthalten, die für mehrere Hashes übereinstimmen.

    Die Verwendung von Wort-Hashes ermöglicht es uns, Vergleichsoperationen schneller durchzuführen, Speicherplatz zu sparen und nicht die Texte von Quelldokumenten zu speichern, sondern deren digitale Schnappschüsse (TextSpirit, wie wir sie liebevoll nennen), die während der Indexierung erhalten wurden, wodurch das Urheberrecht nicht verletzt wird. Die Auswahl bestimmter Ausleihfragmente erfolgt über einen Suffixbaum.

    Durch die Überprüfung mit einem einzelnen Suchmodul erhalten wir eine Überarbeitung, in der eine Liste von Quellen, deren Metadaten und Koordinaten von Ausleihblöcken relativ zum Abfragetext enthalten ist.

    Montage melden


    Was ist übrigens, wenn eines der 10-15 Module nicht rechtzeitig reagiert hat? Wir suchen Sammlungen der RSL, eLibrary und des Garantiegebers. Diese Suchmodule befinden sich auf dem Gebiet Dritter und können aus urheberrechtlichen Gründen nicht auf unsere Website übertragen werden. Die Fehlerquelle kann immer ein Kommunikationskanal und verschiedene höhere Gewalt in Rechenzentren sein, die nicht von uns kontrolliert werden. Einerseits kann die Ausleihe in jedem Suchmodul gefunden werden, andererseits können Sie, wenn eine der Systemkomponenten nicht verfügbar ist, die Suchqualität verschlechtern, aber den größten Teil des Ergebnisses liefern und den Benutzer warnen, dass das Ergebnis für einige Suchmodule noch nicht bereit ist. Welche Option würden Sie anwenden? Wir verwenden diese beiden Optionen nach Bedarf.



    Nachdem alle Überarbeitungen eingegangen sind, beginnen wir mit der Erstellung des Berichts. Bei der Vorbereitung einer Einzelprüfung wird ein ähnlicher Ansatz verfolgt. Es scheint nichts kompliziertes zu sein, aber hier gibt es interessante Probleme. Wir haben zwei Arten von Krediten. Grüne Bezeichnungen bezeichnen "Zitate" - korrekt ausgegebene (gemäß GOST) Zitate aus dem Modul "Zitate", Ausdrücke wie "nachweispflichtig" aus dem Modul "Häufig verwendete Ausdrücke", normative Rechtsdokumente aus den Garant- und Lekspro-Datenbanken. Orange markiert alle anderen Anleihen. Grüns haben Vorrang vor Orange, es sei denn, sie sind vollständig im orangefarbenen Block enthalten.

    Infolgedessen kann der Bericht mit dem auf dem Tisch liegenden Papier gedruckten Text verglichen werden, über den sich auf phantastische Weise mehrfarbige Streifen (Ausleihblöcke und Zitate) überlappen. Was wir oben sehen, ist ein Bericht. Wir haben zwei Indikatoren für jede Quelle:

    Anteil am Bericht - das Verhältnis der Ausleihe, die von dieser Quelle berücksichtigt wird, zum Gesamtvolumen des Dokuments. Wurde derselbe Text in mehreren Quellen gefunden, wird er nur in einer berücksichtigt. Wenn Sie die Konfiguration des Berichts ändern (Quellen aktivieren oder deaktivieren), kann sich diese Anzeige der Quelle ändern. Insgesamt wird der Prozentsatz der Anleihen und Zitierungen angegeben (abhängig von der Farbe der Quelle).

    Text teilen- das Verhältnis des aus diesem Quelltext entliehenen Volumens zum Gesamtvolumen des Dokuments. Anteile am Text nach Quelle zusammenzufassen macht keinen Sinn, es ist einfach 146% oder noch mehr zu bekommen. Dieser Indikator ändert sich nicht, wenn sich der Bericht ändert.

    Natürlich kann der Bericht bearbeitet werden. Dies ist eine spezielle Funktion, damit der Experte, der die Arbeit überprüft, die Ausleihe der eigenen Arbeit des Autors ausschaltet (es kann gezeigt werden, dass sich dieses Fragment nicht nur in der eigenen Arbeit des Autors, sondern auch an einer anderen Stelle befindet) und einzelne Ausleihblöcke den Quelltyp von änderten Ausleihen bei Zitieren. Durch die Bearbeitung des Berichts erhält der Experte den tatsächlichen Wert der Kreditaufnahme. Alle Arbeiten zur Überprüfung müssen gelesen werden. Zu diesem Zweck sollten Sie sich die Originaldokumentansicht ansehen, in der die Ausleihblöcke markiert sind, und den Bericht beim Lesen sofort bearbeiten. Leider ist dies eine ziemlich logische Handlung, nicht alle sind verpflichtet, viele sind zufrieden mit einem Prozentsatz an Originalität, auch ohne den Bericht anzusehen.

    Lassen Sie uns jedoch einen Schritt zurückgehen und herausfinden, was in den Index des von Antiplagiat erstellten Internet-Suchmoduls fällt.

    Internet-Indizierung


    Die Bekämpfung von Plagiaten konzentriert sich hauptsächlich auf studentische Arbeiten, wissenschaftliche Veröffentlichungen, Abschlussarbeiten, Abschlussarbeiten usw. Wir indizieren das Internet gezielt - wir suchen große Anhäufungen von wissenschaftlichen Texten, Abstracts, Artikeln, Dissertationen, wissenschaftlichen Journalen etc. Die Indizierung sieht wie folgt aus:

    1. Unser Roboter kommt anscheinend und lädt, geleitet von robots.txt (wir haben einen guten Roboter), Dokumente mit einer angemessenen Auslastung auf jeden Host (es gibt Hunderte von Sites, die gleichzeitig arbeiten, sodass wir zwischen den Seitenladevorgängen eine Weile warten können).
    2. Der Roboter sendet das Dokument und seine Metadaten an die Verarbeitungswarteschlange, der Text wird aus dem Dokument extrahiert.
    3. Der Text wird auf "Qualität" analysiert - wie Sie sich aus dem Artikel über den Dump erinnern, können wir das Genre des Dokuments bestimmen, hier einfache Heuristiken für den Band hinzufügen und verstehen, ob der Text zu uns oder zu irgendeiner Art von Müll gekommen ist.
    4. Qualitätstext geht weiter und verwandelt sich in Hashes. Hashes und Metadaten werden an den Hauptindex des Internets gesendet.
    5. Wir vergleichen den eingehenden Text mit den zuvor von uns indizierten Texten. Ein Neuling wird nur hinzugefügt, wenn er wirklich neu ist , d. H. 90% der Hashes sind nicht vollständig in anderen bereits indizierten Texten enthalten. Wenn wir das Dokument bereits haben, fügen wir die URL dieses Dokuments zu den Attributen unseres Archivs hinzu.

    Daher indizieren wir Qualitätstexte, und alle indizierten Texte unterscheiden sich erheblich. Das Wachstum des im Internet indizierten Volumens ist in der folgenden Abbildung dargestellt. Mittlerweile fügen wir dem Index durchschnittlich 15 bis 20 Millionen Dokumente pro Monat hinzu.



    Beachten Sie, dass es keine Beschreibung des Entfernungsvorgangs aus dem Index gibt. Und sie ist nicht! Grundsätzlich entfernen wir keine Dokumente aus dem Index. Wir glauben, wenn wir etwas im Internet sehen könnten, könnten andere diesen Text sehen und ihn auf die eine oder andere Weise verwenden. In dieser Hinsicht gibt es eine interessante Statistik dessen, was einmal im Internet war, und jetzt ist es nicht mehr da. Ja, stellen Sie sich vor, der Ausdruck „Im Internet verschwunden bleibt für immer“ ist nicht wahr! Etwas verschwindet für immer aus dem Internet. Möchten Sie mehr über unsere Statistiken zu diesem Thema erfahren?

    Fazit


    Es ist erstaunlich, wie wichtig technische Entscheidungen sind, die vor mehr als 10 Jahren getroffen wurden. Wir bereiten uns jetzt auf die Veröffentlichung der vierten Version des Index vor. Sie ist schneller, technologischer und besser, basiert jedoch auf denselben Lösungen. Neue Richtungen der Suche sind aufgetaucht - übertragbares Ausleihen, Paraphrasieren, aber auch dort findet unser Index Verwendung und führt sogar einen kleinen, aber wichtigen Teil der Arbeit aus.

    Sehr geehrte Leserinnen und Leser, möchten Sie mehr über unseren Service erfahren?