Wie viele wissenschaftliche Artikel im Internet?

    Professor Lee Giles vom College für Informationstechnologie an der Universität von Pennsylvania hat einen bedeutenden Teil seiner Karriere damit verbracht, suchmaschinenwissenschaftliche Artikel zu entwickeln, damit die akademische Gemeinschaft einfachen Zugang zu Materialien hat.

    Der Professor veröffentlichte kürzlich die erste seiner Art Studie, in der die Anzahl der im Internet verfügbaren wissenschaftlichen Artikel geschätzt wird. Die Arbeit „Die Anzahl der Scholarly Dokumente auf dem öffentlichen Web“ in der Mai - Ausgabe PLoS der Zeitschrift ONE und zitiert in der Natur.

    Die Arbeit berücksichtigt nur englischsprachige Dokumente, wobei Überschneidungen in den beiden größten spezialisierten Suchmaschinen berücksichtigt werden: Google Scholar und Microsoft Academic Search. Wissenschaftliche Dokumente sind Veröffentlichungen in Zeitschriften und Berichte von Konferenzen, Dissertationen und Dissertationen, Bücher, technische Berichte und Arbeitsdokumente (vorläufige Versionen von wissenschaftlichen Artikeln).

    Statistische Methoden haben ergeben, dass mindestens 114 Millionen wissenschaftliche Dokumente in englischer Sprache über das Internet verfügbar sind, von denen etwa 100 Millionen über Google Scholar verfügbar sind. Mindestens 27 Millionen Dokumente (24%) sind öffentlich verfügbar.



    Die Autoren haben in ihrer Arbeit die Methode der doppelten Erfassung angepasst, die in der Ökologie üblicherweise zur Abschätzung der Größe von Tierpopulationen verwendet wird. Dort schlägt er vor, eine bestimmte Anzahl von Tieren zu fangen, die markiert und in die Wildnis entlassen werden. Anschließend wird im selben Gebiet erneut gefischt. Wissenschaftler schätzen den Prozentsatz der beringten Tiere in der zweiten Stichprobe - und machen mit einer einfachen Formel eine ungefähre Schätzung der Gesamtpopulationsgröße.

    Giles Forschung hat für ihn als Entwickler eine praktische Bedeutung. Bereits 1997 veröffentlichten er und seine Kollegen die offene Suchmaschine CiteSeer für wissenschaftliche Dokumente, hauptsächlich aus dem Bereich der Informatik. Gleichzeitig berücksichtigte die Suchmaschine Anführungszeichen und Links in Dokumenten, um einen Index unter Berücksichtigung des Rankings zu erstellen. Es wird angenommen, dass dies das erste automatische Indexierungssystem für Zitate ist, das Vorläufer von Tools wie Google Scholar und Microsoft Academic Search ist.

    Im Jahr 2008 wurde eine neue Version von CiteSeerX veröffentlicht, in der das Fach auf Physik, Wirtschaft, Medizin und andere wissenschaftliche Branchen ausgeweitet wurde. Giles versucht zu bewerten, welche Infrastruktur für die Indizierung von Dokumenten in den einzelnen Branchen erforderlich ist.



    Giles betont, dass 24% aller Dokumente über Google Scholar als direkte Links zu Dokumenten im Internet frei verfügbar sind (in der Informatik liegt der Anteil der frei verfügbaren Dokumente bei 50%). Der Professor stellt außerdem fest, dass öffentlich zugängliche Dokumente häufiger zitiert werden und mehr Gewicht haben.


    Jetzt auch beliebt: