Festlegen der Reihenfolge der Besuche neuer Seiten durch einen Suchroboter basierend auf einer Vorhersage der Popularität einer Webseite (Teil II)

Ursprünglicher Autor: Ludmila Ostroumova, Ivan Bogaty, Arseny Chelnokov, Alexey Tikhonov, Gleb Gusev
  • Übersetzung
Bild
Wie hoch ist die Wahrscheinlichkeit, dass eine neue Webseite populär wird?

Wir kehren zum umfassenden Thema der Verhaltensfaktoren zurück und veröffentlichen weiterhin die Übersetzung des Yandex-Berichts zur Erstellung eines mathematischen Modells für die Auswahl der optimalen Indexierungsrichtlinie für neue Seiten. Der Algorithmus, der auf maschinellem Lernen und Wahrscheinlichkeitstheorie basiert, ermöglicht es uns, die Popularität einer neuen Seite im Format von Besuchen (Benutzer-Klicks) vorherzusagen, die von der Browser-Symbolleiste aufgezeichnet wurden, und arbeitet mit dem zusätzlichen Konzept eines Rückgangs dieser Popularität, das auch für diesen Algorithmus vorhergesagt wird. Die Übersetzung wird mit Unterstützung der analytischen Abteilung der ALTWeb Group und des Teams des Sonderprojekts SERPClick veröffentlichtHiermit können Sie das Ranking von Webseiten erhöhen, indem Sie Verhaltensfaktoren direkt beeinflussen. Der zweite Teil des Artikels ist gekürzt.


3. Algorithmus

3.1 System
Beschreiben wir zunächst das allgemeine System des vorgeschlagenen Algorithmus. Laut früheren Studien in diesem Bereich [7, 16, 20] haben wir eine einzige Quelle für die Berechnung der Indexkosten für alle Seiten festgelegt. Mit anderen Worten, wir berücksichtigen die feste Zeit , die der Roboter zum Laden einer Seite benötigt. Also jederSekunden wählt der Roboter die zu ladende Seite aus seiner Seitenwarteschlange zur Indizierung aus. Die Indexseitenwarteschlange wird ständig aktualisiert, wenn neue Seitenverknüpfungen erkannt werden. Die Indexseitenwarteschlange kann aus verschiedenen Gründen aktualisiert werden. Neue URLs können vom Roboter erkannt werden oder beispielsweise aus den Protokollen der Browser-Symbolleiste stammen. In diesem Artikel wird das Problem des Ermittelns neuer Adressen nicht berücksichtigt. Im Verlauf unserer Recherche haben wir neue Adressen aus der Browser-Symbolleiste verwendet.

3.2 Metrik
Die folgende Metrik wurde vorgeschlagen [12], um die Effizienz eines Algorithmus zu messen. Die Nützlichkeit der Seite , die wir durch die Indizierung der Seite im Laufe der Zeit erhaltenNach seinem Erscheinen wird es in der Gesamtzahl der Klicks ausgedrückt, die diese Seite von der Ausgabeseite erhält, nachdem sie indexiert wurde (Seite i). Es ist wichtig zu beachten, dass wir nur Seiten berücksichtigen, die kurzfristig von Interesse sind. In diesem Fall wird die Qualität des Algorithmus zum Zeitpunkt t (arithmetisches Mittel der Intervalle T) wie folgt ausgedrückt:

Es ist auch wichtig zu beachten, dass die Anzahl der Klicks auf der SERP-Seite von einer Reihe von Gründen abhängt, einschließlich der Merkmale des Benutzerverhaltens und des Rangfolgesystems, und nicht nur vom Indexierungsalgorithmus. Daher ist es nicht immer offensichtlich, wie die Änderung der Anzahl der Klicks beim Ändern der Indexierungsrichtlinie zu interpretieren ist. Ändert sich beispielsweise die Anzahl der Klicks nur aufgrund einer Änderung der Indexierungsrichtlinie der Seiten oder hängt sie auch von der Rangfolge ab, und diese Anzahl kann dann unterschiedlich sein, wenn unterschiedliche, gleich gute Indexierungsrichtlinien angewendet werden? Tatsächlich halten wir es in diesem Fall für sinnvoller, auf Benutzerprotokolle zu verweisen, die wir aus den Symbolleistendaten abrufen können, und die Anzahl der Besuche als Hauptrichtlinie zu wählen, die uns durch die Klickrate ersetzt - dies reicht aus, um die Indizierungseffizienz zu messen. Auf diese Weise,Was wir erhalten, wenn wir Seite i mit einer Verzögerung indizieren, wird in Zukunft die Anzahl der Besuche auf dieser Seite anzeigen, nachdem sie indiziert wurde.
Wie in Abschnitt 4.1 gezeigt wird, bewerten wir den Erfolg des Algorithmus anhand der in einem Monat gesammelten Daten. Geben Sie also T = 1 Monat an und geben Sie den durchschnittlichen Nutzen (oder Nutzen) der Anwendung dieser Indexierungsrichtlinie pro Sekunde für diesen Monat an.

3.3 Indizierungsstrategie

Wie in Abschnitt 3.1 vereinbart, sollte unser Algorithmus jede Sekunde eine Seite aus der Seitenwarteschlange für die Indizierung auswählen. Unsere Aufgabe ist es, jedes Mal die entsprechende URL auszuwählen, um die Seite zu indizieren, vorausgesetzt, die Indexierungswarteschlange ändert sich dynamisch.
Zu diesem Zweck berücksichtigen wir die Dynamik der Änderungen in der Popularität wie folgt. In [12] wurde gezeigt, dass das Dienstprogramm , das das Ergebnis der Indizierung der Seite u mit einer gewissen Verzögerung ist , mit der Zeit exponentiell verschwindet.
Daher kann dieses Dienstprogramm mit einigen Parametern und angenähert werden .

Wir können sehen , dass , wenn wir bekommen , dass die Gesamt Popularität der Seite u, dh in diesem Fall die Gesamtzahl der Seitenaufrufe von Nutzern seit seiner Gründung auszudrücken, und wird den Rückgang seiner Popularität bedeuten.

Für jede Seite u prognostizieren wir die Parameter undwie in Abschnitt 3.4 beschrieben. Schließlich wird die folgende Strategie gewählt. Jede Sekunde wählen wir eine Seite mit dem maximal erwarteten Nutzwert aus. Das heißt, für jede Seite u wird jede Sekunde ihre Bewertung berechnet , anhand derer dann alle neuen Seiten in der Indexierungswarteschlange eingestuft werden. Dabei handelt es sich um die Zeit, die seit dem Auffinden der Seite u vergangen ist. Danach indexieren wir die Seite mit dem höchsten Rang in der Warteschlange.
Die Zeit, zu der die Seite der Einfachheit halber entdeckt wurde, wird durch die Zeit angenähert, als sie erstellt wurde. Aus diesem Grund gehen wir davon aus, dass der erste Besuch dieser Seite, der in den Protokollen der Benutzersymbolleiste aufgezeichnet wurde, in der Nähe des Zeitpunkts liegt, zu dem die Seite erstellt wurde.

3.4 Erwartete Seitenbeliebtheit

In diesem Abschnitt diskutieren wir die Parameter einer Methode zur Vorhersage und für eine bestimmte URL u. Wir werden uns ein Entscheidungsbaummodell mit Gradientenverstärkung mit einer Liste von Merkmalen ansehen, die später in diesem Abschnitt beschrieben werden. Beachten Sie, dass dies die Gesamtzahl der Besuche auf Seite u ist, die über die Symbolleiste aufgezeichnet wurden. Da die Verteilung von all für alle Seiten u in unserem Datenblock groß ist, haben wir es mit großen Werten zu tun . Um eine Indexierungsrichtlinie aufzustellen, müssen wir die Größenordnung kennen, während die genaue Bestimmung der Anzahl nicht so wichtig ist. Wie bei der in großen Mengen ausgedrückten Wahrscheinlichkeitsverteilung [19] sagen wir den Wert voraus, indem wir die Standardabweichung in der Trainingsstichprobe reduzieren.

Wir bestimmen auch den Rückgang der Popularität . Es sei die Anzahl der Besuche über die Zeit t (in unseren Experimenten in Stunden gemessen), nachdem die URL u entdeckt wurde. Wir trainieren unser Entscheidungsbaummodell, das das Verhältnis zur Anzahl aller Besuche auf Seite u, dh den Wert , vorhersagt (in diesem Fall reduzieren wir die Standardabweichung). Dann können wir das Ausmaß des Rückgangs wie folgt bestimmen . Basierend auf der Gleichung folgt das . Wir berechnen den Logarithmus und erhalten , und dann können wir bestimmen , durch
Daher werden die projizierten Vorteile der Indizierung Seiten u Verzögerung nach seinem Erscheinen wird wie folgt sein:

Referenzen

1. Abiteboul, S., Preda, M., Cobena, C.: Adaptive Online-
Berechnung der Seitenwichtigkeit . In: Proc. WWW-Konferenz (2003)
2. Abramson, M., Aha, D.: Was ist in einer URL? Genreklassifikation von URLs. In:
Konferenz über künstliche Intelligenz, pp. 262-263 (2012)
3. Bai, X., Cambazoglu, BB, Junqueira, FP: Ermitteln von URLs durch Benutzerfeedback
. In: Proc. CIKM Konferenz, pp. 77-86 (2011)
4. Baykan, E., Henzinger, M., Marian, L., Weber, I.: Eine umfassende Untersuchung von
Analysen und Algorithmen zur url-basierten Themenklassifizierung. ACM Trans. Web (2011)
5. Baykan, E., Henzinger, M., Weber, I.: Effiziente Entdeckung maßgeblicher Ressourcen.
ACM Trans. Web (2013)
6. Cho, J., Schonfeld, U .: Rankmass-Crawler: Ein Crawler mit hoher personalisierter Pagerank-
Deckungsgarantie. In: Proc. VLDB (2007)
7. Edwards, J., McCurley, KS, Tomlin, J. A.: Adaptives Modell zur Optimierung der
Leistung eines inkrementellen Webcrawlers. In: Proc. WWW-Konferenz (2001)
8. Fetterly, D., Craswell, N., Vinay, V .: Die Auswirkung der Crawling-Richtlinie auf die
Effektivität der Websuche . In: Proc. SICIR Konferenz, pp. 580-587 (2009)
9. Hastie, T., Tibshirani, R., Friedman, J. H.: Die Elemente des statistischen Lernens:
Data Mining, Inferenz und Vorhersage: mit 200 farbigen Abbildungen. Springer,
New York (2001)
10. Kan, MY: Webseitenklassifizierung ohne Webseite. In: Proc. WWW-Kon-
ference, pp. 262-263 (2004)
11. Kumar, R., Lang, K., Marlow, C., Tomkins, A.: Effiziente Entdeckung maßgeblicher
Ressourcen. Data Engineering (2008)
12. Lefortier, D., Ostroumova, L., Samosvat, E., Serdyukov, P.: Zeitnahes Crawlen von
hochwertigen, kurzlebigen neuen Inhalten. In: Proc. CIKM Konferenz, pp. 745-750 (2011)
13. Lei, T., Cai, R., Yang, JM, Ke, Y., Fan, X., Zhang, L.: Ein musterbaumbasierter
Ansatz zum Erlernen von Regeln zur URL-Normalisierung. In: Proc. WWW-Konferenz,
S. 611-620 (2010)
14. Liu, M., Cai, R., Zhang, M., Zhang, L.: Durch das Durchsuchen von verhaltensgesteuertem Webcrawlen durch Benutzer
. In: Proc. CIKM Konferenz, pp. 87-92 (2011)
15. Olston, C., Najork, M.: Web-Crawling. Grundlagen und Trends in der Information
Retrieval 4 (3), 175-246 (2010)
16. Pandey, S., Olston, C .: Benutzerzentriertes Web-Crawlen. In: Proc. WWW-Konferenz
2005
17. Pandiy, S., Olston, C .: Crawl-Reihenfolge nach Sucheffekt. In: Proc. WSDM Conference
(2008)
18. K. Radinsky, K. Svore, S. Dumais, J. Teevan, A. Bocharov, E. Horvitz: Modellierung
und Vorhersage der Verhaltensdynamik im Web. In: Proc. WWW-Konferenz,
S. 599-608 (2012)
19. Tsur, O., Rappoport, A .: Inhaltliche Vorhersage
der Verbreitung von Ideen in Microblogging-Communities. In: Proc. WSDM Konferenz,
pp. 643-652 (2012)
20. Wolf, JL, Squillante, MS, Yu, PS, Sethuraman, J., Ozsen, L.: Optimales Kriechen
Strategien für Web-Suchmaschinen. In: Proc. WWW-Konferenz (2002)


Diese und weitere Übersetzungen finden Sie im Blog der ALTWEb Group auf Habré. Die analytische Abteilung des Unternehmens führt Recherchen und Überprüfungen zu aktuellen Suchproblemen durch und verwendet das erworbene Wissen, um eigene Produkte zu entwickeln, wie zum Beispiel ein Produkt, das derzeit keine inländischen (fast) oder ausländischen (vollständig) Analoga enthält, um das Website-Ranking basierend auf Verhaltensfaktoren zu verbessern : SERPClick . Vielen Dank für die Übersetzung. Abonnieren Sie unseren Blog, wenn Sie immer auf dem Laufenden sein möchten!

Nur registrierte Benutzer können an der Umfrage teilnehmen. Bitte komm rein .

Möchten Sie weitere Übersetzungen von Berichten zu Suchmaschinenalgorithmen lesen?

  • 78,5% Ja, bitte, ich bin interessiert. 11
  • 21,4% Nein, danke, es gibt zu viele „Theorwer“, kurze Schlussfolgerungen und Rezensionen reichen mir aus. 3
  • 0% Weder ja noch nein, ich bin anderer Meinung. 0

Jetzt auch beliebt: