So legen Sie die Reihenfolge der Besuche neuer Seiten durch einen Suchroboter fest, basierend auf einer Vorhersage der Popularität einer Webseite (Teil I)

Ursprünglicher Autor: Ludmila Ostroumova, Ivan Bogaty, Arseny Chelnokov, Alexey Tikhonov, Gleb Gusev
  • Übersetzung
Bild
Crawlen auf Ihrer Seite im Web (Web) Suchroboter

Dieser Bericht wurde im März dieses Jahres im Yandex Technologies Hub veröffentlicht. Die von der Yandex-Unternehmensgruppe durchgeführten Untersuchungen setzen ein Ziel: die Indizierungsreihenfolge neuer Seiten zu bestimmen. Im ersten Teil des Papiers werden frühere Studien zu diesem Thema erörtert. Die von der Forschungsgruppe vorgeschlagene Methode schlägt vor, die Vorhersage des Benutzerverhaltens für diese Seite zu berücksichtigen, was uns erneut zum Thema der Beziehung von Verhaltensfaktoren zu Ranking und Indexierungsgeschwindigkeit zurückführt. Die Übersetzung wird mit Unterstützung der Arbeitsgruppe des SERPClick-Projekts veröffentlicht, um das Ranking Ihrer Website zu verbessern, indem die Verhaltensfaktoren für Ihre Website direkt beeinflusst werden.



Artikelzusammenfassung



In diesem Dokument konzentrieren wir uns auf Suchmaschinenstandards für neue Websites. Da es unmöglich ist, alle neuen Seiten unmittelbar nach ihrem Erscheinen zu indizieren, sollten die wichtigsten (oder beliebtesten) Seiten zuerst indiziert werden. Der natürlichste Indikator für die Wichtigkeit einer Seite ist die Anzahl der Besucher. Die Popularität neuer Websites kann jedoch nicht sofort bestimmt werden und muss daher anhand der Merkmale einer neuen Seite oder Website vorhergesagt werden. In diesem Dokument werden verschiedene Methoden zur Vorhersage der Beliebtheit neuer Seiten anhand der zuvor untersuchten Leistungsindikatoren für Suchmaschinen betrachtet und neue Einstellungen zur Messung dieser Effektivität angeboten, die der tatsächlichen Situation näher kommen. Insbesondere vergleichen wir die kurzfristige und langfristige Beliebtheit neuer Seiten. basierend auf Daten über den Rückgang der Popularität. Im Verlauf der Experimente konnten wir feststellen, dass die Daten zum Rückgang der Popularität erfolgreich verwendet werden können, um die Priorität der Seitenprüfung durch einen Suchroboter anzupassen. Weitere Forschung muss sich auf eine genauere Abstimmung dieses Mechanismus konzentrieren.

Schlüsselwörter: Indexierungsreihenfolge, neue Webseiten, Beliebtheitsprognose.

1. Einleitung


Die Routenplanung des Suchroboters ist dafür verantwortlich, welche Adresse aus der Warteliste ausgewählt und vom Suchroboter besucht wird. Obwohl dieselbe Strategie mehrere Ziele haben kann, zielt sie in erster Linie auf die Implementierung der folgenden zwei Aufgaben ab:
Herunterladen entdeckter neuer Webseiten, die noch nicht im Index enthalten sind, sowie
Aktualisieren von Kopien von Seiten, auf denen wichtige Aktualisierungen aufgetreten sind.

In unserer Arbeit konzentrieren wir uns auf die erste Aufgabe: die Indizierung neuer Webseiten. Es ist unmöglich, alle neuen Seiten unmittelbar nach ihrem Erscheinen zu indizieren, da die Anzahl der Seiten im Netzwerk schnell zunimmt und die Ressourcen selbst bei seriösen Suchmaschinen begrenzt sind. Folglich sollten die wichtigsten Seiten zuerst indiziert werden.

Es gibt verschiedene Möglichkeiten, die Wichtigkeit einer Seite zu messen, mit denen Sie eine bestimmte Reihenfolge von Seitenbesuchen für eine Suchmaschine festlegen und gleichzeitig den Erfolg der Indizierung messen können. Unter den vielen Indikatoren für die Wichtigkeit der Seite, wie beispielsweise ein
Linkdiagramm, beispielsweise in PageRank als vielversprechendste Methode, ist
in den Suchmaschinenprotokollen auch eine Benutzersuchaktivität aufgezeichnet.

Das Ziel eines jeden Ansatzes [zur Berechnung der Seitenbedeutung] besteht darin, den allgemeinen Nutzen indizierter Seiten für eine Suchmaschine zu bestimmen. Unter diesem Gesichtspunkt ist es gerechtfertigt, als Maß für die Seitenbeliebtheit die Anzahl der Benutzerklicks (oder Besuche) einer bestimmten Seite oder deren Beliebtheit zu verwenden. Dies ist der sogenannte Ansatz, der auf Daten zum Benutzerverhalten bei der in [14] vorgeschlagenen Suche basiert. Es wurde bereits nachgewiesen, dass die Popularität fast jeder Seite nur von kurzer Dauer ist: Sie sind einige Zeit nach ihrer Erstellung beliebt, und dann nimmt das Interesse der Benutzer mit der Zeit ab. In diesem Dokument konzentrieren wir uns nur auf solche Seiten mit kurzfristigem Benutzerinteresse und prognostizieren das Maximum für diesen Indikator, nachdem die Seite indiziert wurde.

Die Popularität einer neuen Seite kann nicht im Voraus bekannt sein und muss daher auf der Grundlage der Parameter der Seite vorhergesagt werden, die zum Zeitpunkt ihrer Entdeckung im Netzwerk bekannt sind. Wir haben das Problem der Vorhersage der Popularität neuer Seiten analysiert, insbesondere die Dynamik der Popularität berücksichtigt und sowohl die Popularität der Seite selbst als auch deren Rückgang für neue URLs vorhergesagt. Die zuvor in [14] vorgeschlagene vorgegebene Reihenfolge der Seitenindizierung basiert auf der Vorhersage der Popularität der Seite als Ganzes und berücksichtigt daher nicht die Dynamik dieses Indikators im Zeitverlauf. Wenn wir bei diesem Ansatz zwei neue Seiten verwenden, von denen eine heute beliebt ist und die andere noch beliebter wird, aber nach einigen Tagen
Wir glauben, dass Daten über die Dynamik der Popularität effektiv verwendet werden können, um das Verhalten eines Suchroboters zu optimieren, aber gleichzeitig ist es schwierig, diese Dynamik vorherzusagen.

Wir prognostizieren die Gesamtzahl der Besuche, die im Laufe der Zeit auf einer neuen Seite behoben werden. Im Gegensatz zu [14] basiert unsere Vorhersage auf einem Modell, das Indikatoren aus verschiedenen Quellen berücksichtigt, einschließlich der Seitenadresse selbst und der Domäne. Wir prognostizieren die Dynamik der Seitenpopularität über die Zeit unter Verwendung des entsprechenden Exponenten, wie in [12] vorgeschlagen.

Wir geben eine Bewertung der Funktionalität verschiedener Möglichkeiten, wie Sie die Reihenfolge der Indizierung von Seiten basierend auf der Vorhersage der Seitenpopularität festlegen können. Der in diesem Artikel vorgeschlagene Algorithmus berücksichtigt den vorhergesagten Rückgang der Popularität von Webseiten und mischt die Indexierungswarteschlange entsprechend der Dynamik der Popularität dynamisch. Es ist erwähnenswert, dass die Methode zur Indizierung von Sequenzaufgaben auf der Grundlage von Daten zum Benutzerverhalten eine experimentelle Bewertung unter realen Bedingungen erfordert, wobei die sich ändernde Art der Aufgabe selbst berücksichtigt werden muss: Verzögerungen bei der Indexierung, das Auftreten neuer Seiten und zuvor beliebter Seiten, die größer sind keine Besuche erhalten. Soweit wir wissen, wurden solche Experimente noch nicht durchgeführt.

Wir sind zu dem Schluss gekommen, dass die Strategie der Indexpriorität, die den Rückgang der Seitenpopularität berücksichtigt, effektiver ist als Methoden, die ausschließlich auf der Popularität als solcher beruhen. Diese Schlussfolgerung bestätigt unsere Annahme, dass es wichtiger ist, die derzeit beliebten Seiten zu indizieren, um diesen Teil des Datenverkehrs, der durch die Suchmaschine geleitet werden kann, nicht zu verlieren.

Zusammenfassend ist diese Studie aufgrund der folgenden zwei Punkte nützlich:

- Wir lösen das Problem der Vorhersage der allgemeinen Popularität und des Grads des Rückgangs der Popularität für neue Webseiten und bieten auch eine effektive Methode zur Vorhersage der allgemeinen Popularität an, die im Vergleich zu der derzeit verwendeten Methode zur Vorhersage der allgemeinen Popularität effektiver ist.

- Unter realen Bedingungen testen wir verschiedene Indexierungsstrategien auf der Grundlage von Benutzerverhaltensdaten und finden Hinweise darauf, dass eine Strategie, die die Änderung der Popularität berücksichtigt, effektiver ist als eine Strategie, die nur auf der Gesamtpopularität basiert, und daher eine effektive Prognosemethode bietet der Rückgang der Popularität der neuen Seite.

Die weitere Präsentation ist in der folgenden Reihenfolge organisiert:
Im nächsten Abschnitt überprüfen wir eine frühere Studie zu Indizierungsmethoden für neue Seiten und zur Vorhersage der Seitenpopularität. In Abschnitt 3 beschreiben wir die Prinzipien und Methoden des Indexierungsalgorithmus, den wir in diesem Artikel vorschlagen. In Abschnitt 4 präsentieren wir die Ergebnisse des Testens des neuen Algorithmus und vergleichen ihn mit der derzeit verwendeten Strategie. Abschnitt 5 fasst die Arbeit zusammen.

2. Frühere Studien


Es gibt bereits eine Reihe von Arbeiten, die sich mit der Vorhersage der Popularität für verschiedene Elemente des Internets befassen: Texte, Nachrichten, Benutzer sozialer Netzwerke, Tweets, Twitter-Hash-Tags, Videos usw. Allerdings sind nur wenige Arbeiten der Popularität von Seiten gewidmet, die auf der Grundlage von Benutzerbesuchen berechnet werden. . Einer von ihnen bietet ein Modell, das die entsprechende Beliebtheit für eine bestimmte Anfrage, die Anzahl der Klicks einer Suche auf einer bestimmten Seite und auch ein Paar von Anforderungsseiten vorhersagt. Dieses Modell basiert auf Daten (aus den Protokollen) über die zuvor bekannte Dynamik dieser Anforderung und klickt auf das entsprechende Dokument. Daher kann dieser Ansatz nicht angewendet werden, um das Problem der Vorhersage der Popularität neuer Seiten zu lösen, für die die Suchmaschine noch nicht genügend Daten aus den Protokollen hat, weil

Eine weitere Studie konzentriert sich auf kürzlich entdeckte Seiten und die Vorhersage des Datenverkehrs, der durch sie geleitet wird. Die Prognose basiert jedoch nur auf der Seitenadresse. Dies ist ein wirklich wichtiger Aspekt für die Planung der zukünftigen Reihenfolge der Indizierung von Seiten, da wir die Popularität der Seite vorhersagen müssen, bevor wir überhaupt mit dem Laden beginnen.
Unsere Arbeit ist eine Fortsetzung dieser Studie, da wir die Popularität neuer Seiten in der Dynamik vorhersagen und dafür eine Kombination aus einer Prognose der Gesamtpopularität der Seite mit einer Prognose des Rückgangs ihrer Popularität verwenden.

Unser auf maschinellem Lernen basierender Algorithmus verbessert außerdem den aktuellen Ansatz zur Vorhersage der allgemeinen Seitenpopularität erheblich. Da das Problem der Bestimmung der Popularität, das durch die Analyse der Seitenadresse gelöst wird, relativ neu ist, gibt es mehrere Studien, die sich mit der Vorhersage verschiedener Parameter der Seite selbst basierend auf ihrer Adresse befassen, noch bevor der Inhalt heruntergeladen wird, wie z.

  • Webseitenkategorie
  • die Zunge
  • das Thema
  • das Genre

Einige dieser Arbeiten schlagen einen Ansatz vor, mit dem unser Modell zur Vorhersage der Popularität erfolgreich erstellt werden kann.

Die Pionierarbeit [16] schlägt vor, die Wirksamkeit der Indizierung anhand der Nützlichkeit indizierter Seiten für Suchbenutzer zu bewerten, die auf einer bestimmten Ranking-Methode und Suchabfrageprotokollen beruht. Die Autoren definieren die Qualität der ausstellenden Seite als Indikator für die durchschnittliche Anzahl aller Benutzeranfragen und vergleichen die Änderungen in diesem Indikator für verschiedene Methoden zur Erstellung einer Indexierungsstrategie für einen Suchroboter. Sie bieten einen Algorithmus, mit dem Sie Seiten wiederholt effektiv indizieren können, um ihre lokalen Kopien rechtzeitig zu aktualisieren. Die Vorteile einer erneuten Indizierung einer bestimmten Seite werden anhand der Protokolle bewertet, die die Vorteile [für die Suchmaschine] der vorherigen Indizes widerspiegeln. Im Zusammenhang mit dieser Einschränkung der Arbeit wird das Verfahren zum Indizieren neuer Seiten nicht berücksichtigt.
Im Gegenteil, unsere Arbeit konzentriert sich auf die Vorhersage des Nutzens einer neuen Seite, die auf den Parametern ihrer URL basieren sollte, die wir bestimmen können, ohne die Seite zu laden. Die Frage, in welcher Reihenfolge neue URLs zur Indizierung gesendet werden sollen, wurde in [17] behandelt. In unserer Arbeit basiert die Messung der Effektivität des gesamten Algorithmus wie in [16] auf dem folgenden Faktor: der Nützlichkeit indizierter Seiten innerhalb der vorhandenen Ranking-Methode und unter Berücksichtigung von Suchanfragenprotokollen. Als Anhang zu neuen Seiten sollte deren erwarteter Nutzen nur auf der Grundlage der Seitenadresse, der eingehenden Links, der Domänenindikatoren und der entsprechenden Anker berechnet werden.

Die in [16] und [17] vorgeschlagene Methode zur Bewertung der Indexierungsstrategie kann als die erwartete Anzahl von Klicks interpretiert werden, die mit der vorhandenen Ranking-Methode auf die indizierte Seite fallen und auf den Suchabfrageprotokollen basieren, die wir für einen bestimmten Zeitraum festlegen. Wenn eine bestimmte Datenmenge über Anfragen Q aus Anfragen und deren Häufigkeit besteht, bestimmen die Autoren den allgemeinen Nutzen von Seite p wie folgt:


Dabei ist f (q) die Häufigkeit der Abfrage q, und I (p, q) kann als die Wahrscheinlichkeit definiert werden, dass das Dokument p Klicks auf die SERP-Seite erhält, die von der aktuellen Rangfolge als Antwort auf die vom Benutzer empfangene Anforderung q generiert wurden. Es wird angenommen, dass wir eine bestimmte Menge an Daten über Q-Abfragen aus Benutzerabfrageprotokollen erhalten, die unter realen Bedingungen für einen bestimmten Zeitraum nahe dem gegenwärtigen Moment entstanden sind. Somit ist die Nützlichkeit von Seite p die erwartete Häufigkeit von Benutzerklicks auf diese Seite aus der Ausgabe. Im Gegensatz zu [16] und [17] messen wir nicht nur die aktuelle Beliebtheit von Seiten, sondern auch den allgemeinen Nutzen dieser Seiten für den Aufbau von Leistungsindikatoren für Suchmaschinen, beispielsweise die Anzahl zukünftiger Besuche. Daher wird unsere Qualitätsmessmethode basierend auf der Gesamteffizienz berechnet. in dem die Suchmaschine "gewinnt", wenn sie diese oder jene Seite indiziert, und nicht nur bei dieser Effizienz im Moment. Unser Ansatz berücksichtigt insbesondere die Tatsache, dass eine bestimmte Seite mit ihrer eigenen Verlustrate dieser Popularität weniger populär wird.

In [12] wurden Strategien zur Indizierung einer Seite vorgeschlagen, an der kürzlich ein Benutzerinteresse aufgetreten ist. Außerdem wird das Problem der Energieverteilung eines Suchroboters zum Indizieren neuer und zum erneuten Indizieren alter Seiten (um neue Links zu erkennen) berücksichtigt. In [12] wurde die Popularität neuer Seiten jedoch nur auf der Grundlage von Daten zu den Domänen vorhergesagt, die darauf verlinken (genauer gesagt auf der Seite, auf der der Link gefunden wurde). Unsere Arbeit bietet ein Prognosemodell, mit dem Sie entscheiden können, wer zuerst indiziert werden soll, selbst wenn die Links auf derselben Seite oder auf ähnlichen Seitengruppen gefunden wurden.

Von Übersetzern: Weiter im Text wird ein Algorithmus zur Lösung des Problems mit allen relevanten mathematischen Berechnungen betrachtet. Hatten Sie bereits den obigen Teil des Artikels zur Überprüfung oder möchten Sie alle Details der Studie im Detail erfahren? Ihre Meinung ist uns wichtig!

Nur registrierte Benutzer können an der Umfrage teilnehmen. Bitte komm rein .

Möchten Sie den zweiten Teil unseres Blogposts lesen?

  • 70% Ja, bitte, ich interessiere mich für die Details. 7
  • 20% Nein, danke, es reicht mir, um es allgemein herauszufinden. 2
  • 10% Weder Ja noch Nein, ich wollte nur die Abstimmungsergebnisse sehen. 1

Jetzt auch beliebt: