Preis nach Ilya Segalovich benannt. Die Geschichte der Informatik und Publikationen anlässlich des Starts

Published on January 31, 2019

Preis nach Ilya Segalovich benannt. Die Geschichte der Informatik und Publikationen anlässlich des Starts



    Heute starten wir den iseg Ilya Segalovich Scientific Prize . Sie wird für Leistungen in der Informatik ausgezeichnet. Studenten und Doktoranden können sich selbst um einen Preis bewerben oder wissenschaftliche Leiter benennen. Die Gewinner werden von Vertretern der akademischen Gemeinschaft und von Yandex ausgewählt. Die wichtigsten Auswahlkriterien: Verfügbarkeit von Veröffentlichungen und Präsentationen auf Konferenzen sowie Beitrag zur Gemeindeentwicklung.

    Die erste Auszeichnung findet im April statt. Im Rahmen der Auszeichnung erhalten junge Wissenschaftler jeweils 350.000 Rubel. Außerdem können sie an einer internationalen Konferenz teilnehmen, mit einem Mentor zusammenarbeiten und ein Praktikum in der Forschungsabteilung von Yandex absolvieren. Die Aufsichtsbehörden erhalten 700 Tausend Rubel.

    Anlässlich der Preisverleihung haben wir beschlossen, hier auf Habré die Erfolgskriterien in der Welt der Informatik zu nennen. Ein Teil der Leser von Habr kennt diese Kriterien bereits und der Rest könnte einen falschen Eindruck davon haben. Heute werden wir diese Lücke schließen - wir werden alle wichtigen Themen behandeln, einschließlich Artikel, Konferenzen, Datensätze und den Transfer wissenschaftlicher Ideen in Dienstleistungen.

    Für Wissenschaftler auf dem Gebiet der Informatik ist das wichtigste Erfolgskriterium die Veröffentlichung ihrer wissenschaftlichen Arbeit auf einer der wichtigsten internationalen Konferenzen. Dies ist die erste "Checkpoint" -Erkennung der Arbeit des Forschers. Beispielsweise werden im Bereich des maschinellen Lernens im Allgemeinen die Internationale Konferenz für maschinelles Lernen (ICML) und die Konferenz für neuronale Informationsverarbeitungssysteme (NeurIPS, ehemals NIPS) unterschieden. Es gibt viele Konferenzen zu bestimmten Bereichen der ML, wie z. B. Computer Vision, Information Retrieval, Sprachtechnologie, maschinelle Übersetzung usw.

    Warum sollten Sie Ihre Ideen veröffentlichen?


    Menschen, die weit von der Informatik entfernt sind, können verwirrt sein, dass es besser ist, die wertvollsten Ideen geheim zu halten und von ihrer Einzigartigkeit zu profitieren. Die reale Situation in unserer Sphäre ist jedoch genau das Gegenteil. Die Autorität eines Wissenschaftlers wird an der Bedeutung seiner Arbeit gemessen, an der Häufigkeit, mit der andere Wissenschaftler auf seine Artikel verweisen (Zitierindex). Dies ist ein wichtiges Merkmal seiner Karriere. Der Forscher steigt die Karriereleiter hinauf und wird in seinem Umfeld immer respektierter, nur wenn er ständig starke Werke herausgibt, die veröffentlicht werden, berühmt werden und die Grundlage für die Arbeit anderer Wissenschaftler bilden.

    Viele (und vielleicht auch die meisten) Top-Artikel sind das Ergebnis der Zusammenarbeit von Forschern an verschiedenen Universitäten und Unternehmen in verschiedenen Ländern der Welt. Wichtig und sehr wertvoll für die Karriere eines Forschers ist der Moment, in dem er die Möglichkeit erhält, auf der Grundlage seiner eigenen Erfahrung Ideen zu finden und herauszufiltern. Aber auch danach leisten ihm seine Kollegen weiterhin wertvolle Hilfe. Wissenschaftler helfen sich gegenseitig bei der Ideenfindung, schreiben Artikel in Zusammenarbeit - und je mehr ein Wissenschaftler zur Wissenschaft beiträgt, desto leichter fällt es ihm, Gleichgesinnte zu finden.

    Schließlich ist die Informationsdichte und -verfügbarkeit inzwischen so groß, dass verschiedene Forscher gleichzeitig sehr ähnliche (und wirklich wertvolle) wissenschaftliche Ideen haben. Wenn die Idee nicht veröffentlicht wird, wird sie mit ziemlicher Sicherheit jemand für Sie veröffentlichen. Der "Gewinner" wird oft nicht von demjenigen bereitgestellt, der die Innovation etwas früher erfunden hat, sondern von dem, der sie etwas früher veröffentlicht hat. Oder - derjenige, der es geschafft hat, die Idee so vollständig, klar und überzeugend wie möglich zu öffnen.



    Artikel und Datensätze


    Der wissenschaftliche Artikel basiert also auf der Hauptidee, die der Forscher vorschlägt. Diese Idee ist sein Beitrag zur Informatik. Der Artikel beginnt mit einer Beschreibung der Idee in mehreren Sätzen. Dann folgt die Einführung, die die Bandbreite der durch die vorgeschlagene Innovation gelösten Probleme beschreibt. Beschreibung und Einführung sind in der Regel in einfacher Sprache verfasst und für ein breites Publikum verständlich. Nach der Einführung ist es notwendig, die gestellten Probleme zu formalisieren und eine strikte Notation in mathematischer Sprache einzuführen. Unter Verwendung der eingeführten Notation ist es dann erforderlich, eine verständliche und erschöpfende Aussage über das Wesentliche der vorgeschlagenen Innovation zu machen, um Unterschiede zu früheren, ähnlichen Methoden zu identifizieren. Alle theoretischen Berechnungen müssen entweder durch Verweise auf zuvor zusammengestellte Nachweise gestützt oder unabhängig nachgewiesen werden. Dies kann mit beliebigen Annahmen geschehen. Beispielsweise kann man den Fall belegen, dass die Daten im Training unendlich groß sind (offensichtlich unerreichbare Situation) oder völlig unabhängig voneinander sind. Gegen Ende des Artikels spricht der Wissenschaftler über die experimentellen Ergebnisse, die er erzielen konnte.



    Damit Überprüfer, die von Konferenzorganisatoren angezogen werden, einen Artikel mit höherer Wahrscheinlichkeit genehmigen, muss er ein oder mehrere Attribute aufweisen. Der Schlüsselfaktor, der die Zulassungschancen erhöht, ist die wissenschaftliche Neuheit der vorgeschlagenen Idee. Oft wird die Neuheit in Bezug auf bereits vorhandene Ideen bewertet - außerdem wird die Arbeit an ihrer Bewertung nicht vom Rezensenten, sondern vom Autor selbst durchgeführt. Im Idealfall sollte der Autor die vorhandenen Methoden im Artikel ausführlich erläutern und möglichst als Sonderfälle seiner Methode darstellen. Der Wissenschaftler zeigt damit, dass die gewählten Ansätze nicht immer funktionieren, dass er sie zusammengefasst und eine breitere, flexiblere und damit effektivere theoretische Formulierung vorgeschlagen hat. Wenn die Neuheit unbestritten ist, bewerten die übrigen Rezensenten den Artikel nicht so sorgfältig - zum Beispiel können sie die Augen vor schlechtem Englisch verschließen.

    Um die Neuheit zu verstärken, ist es nützlich, dem Artikel einen Vergleich mit vorhandenen Methoden für einen oder mehrere Datensätze hinzuzufügen. Jeder von ihnen muss offen sein und im akademischen Umfeld akzeptiert werden. Zum Beispiel gibt es ein ImageNet-Bildarchiv und eine Datenbank mit Institutionen wie dem Modifizierten Nationalen Institut für Standards und Technologie (MNIST) und CIFAR (Canadian Institute for Advanced Research). Die Schwierigkeit besteht darin, dass solche „akademischen“ Daten sich in der Inhaltsstruktur häufig von den tatsächlichen Daten unterscheiden, mit denen die Branche umgeht. Unterschiedliche Daten - unterschiedliche Ergebnisse der vorgeschlagenen Methode. Wissenschaftler, die teilweise für die Industrie arbeiten, versuchen dies zu berücksichtigen und fügen manchmal Vorbehalte der Form "Auf unseren Daten ist das Ergebnis so und so und auf dem öffentlichen Datensatz - so und so" ein.

    Es kommt vor, dass die vorgeschlagene Methode unter einer offenen Datenbank vollständig „geschärft“ ist und nicht mit echten Daten funktioniert. Sie können dieses häufige Problem bekämpfen, indem Sie neue, repräsentativere Datensätze öffnen. Oft sprechen wir jedoch von privaten Inhalten, zu deren Öffnen Unternehmen einfach nicht berechtigt sind. In einigen Fällen führen sie eine (manchmal komplexe und sorgfältige) Anonymisierung von Daten durch - löschen Sie alle Fragmente, die auf eine bestimmte Person verweisen. Zum Beispiel werden die Gesichter und Zahlen in Fotos gelöscht oder unleserlich gemacht. Um nicht nur jedem zugänglich zu sein, sondern zu einem Standard unter Wissenschaftlern zu werden, bei dem es zweckmäßig ist, Ideen zu vergleichen, ist es außerdem erforderlich, sie nicht nur zu veröffentlichen, sondern auch einen gesondert zitierten Artikel über sie und ihre Vorteile zu verfassen.

    Es ist schlimmer, wenn das untersuchte Thema keine offenen Datensätze enthält. Dann muss der Rezensent die Ergebnisse des Autors als vertrauenswürdig ansehen. Theoretisch kann der Autor sie sogar übertreiben und bleibt unklassifiziert. In einem akademischen Umfeld ist dies jedoch unwahrscheinlich, da dies dem Wunsch der überwiegenden Mehrheit der Wissenschaftler widerspricht, die Wissenschaft weiterzuentwickeln.

    In einigen Bereichen von ML, einschließlich Computer Vision, ist es auch üblich, Links zum Code an die Artikel anzuhängen (normalerweise auf GitHub). In den Artikeln selbst ist der Code entweder sehr klein oder es ist ein Pseudocode. Auch hier gibt es Schwierigkeiten, wenn der Artikel von einem Forscher eines Unternehmens und nicht von einer Universität verfasst wurde. Standardmäßig lautet der in einem Unternehmen oder Startup geschriebene Code NDA. Forscher und ihre Kollegen müssen sich viel Mühe geben, um den Code für die beschriebene Idee von den internen und sicherlich geschlossenen Repositories zu trennen.

    Die Publikationsmöglichkeit ist abhängig von der Relevanz des gewählten Themas. Die Relevanz wird hauptsächlich von Produkten und Dienstleistungen bestimmt: Wenn ein Unternehmen oder ein Startup daran interessiert ist, eine neue Dienstleistung aufzubauen oder eine bestehende zu verbessern, basierend auf der Idee aus dem Artikel, ist dies ein Plus.



    Wie bereits erwähnt, werden Artikel zur Informatik äußerst selten allein verfasst. In der Regel wendet einer der Autoren jedoch viel mehr Zeit und Mühe auf als die anderen. Sein Beitrag zur wissenschaftlichen Neuheit ist der größte. In der Liste der Autoren einer solchen Person geben Sie zunächst an - und später, unter Bezugnahme auf den Artikel, können sie ihn nur erwähnen (zum Beispiel "Ivanov et al" - "Ivanov und andere" in lateinischer Sprache). Aber auch der Beitrag der anderen ist äußerst wertvoll - sonst ist es unmöglich, auf der Autorenliste zu stehen.

    Überprüfungsprozess


    Artikel nehmen in der Regel einige Monate vor der Konferenz keine Zeit mehr. Nach dem Einreichen eines Artikels haben die Rezensenten 3-5 Wochen Zeit, diesen zu lesen, zu bewerten und zu kommentieren. Dies geschieht durch das Single-Blind-System, wenn die Autoren die Namen der Reviewer nicht sehen, oder durch Double Blind, wenn die Reviewer selbst die Namen der Authoren nicht sehen. Die zweite Option wird als unparteiischer angesehen: In mehreren wissenschaftlichen Arbeiten wurde gezeigt, dass die Popularität des Autors die Entscheidung des Rezensenten beeinflusst. Beispielsweise könnte er der Ansicht sein, dass ein Wissenschaftler mit einer großen Anzahl bereits veröffentlichter Artikel von vornherein einer höheren Besoldungsgruppe würdig ist.

    Gleichzeitig wird der Prüfer selbst im Fall von Doppelblind wahrscheinlich den Autor erraten, wenn er auf demselben Gebiet arbeitet. Darüber hinaus kann der Artikel zum Zeitpunkt der Rezension bereits in der Datenbank arXiv veröffentlicht werden - der größten Sammlung wissenschaftlicher Arbeiten. Konferenzorganisatoren verbieten dies nicht, empfehlen jedoch die Verwendung eines anderen Namens und einer anderen Anmerkung in der Publikation für arXiv. Aber wenn der Artikel dort platziert würde, wäre es ohnehin nicht schwierig, ihn zu finden.

    Es gibt immer mehrere Rezensenten, die einen Artikel bewerten. Einer von ihnen spielt die Rolle eines Meta-Reviewers, der sich nur die Urteile seiner Kollegen ansehen und die endgültige Entscheidung treffen sollte. Wenn sich die Reviewer in der Bewertung des Artikels unterscheiden, kann der Meta-Reviewer diesen auch der Vollständigkeit halber lesen.

    Manchmal erhält der Autor nach der Überprüfung der Bewertung und der Kommentare die Möglichkeit, eine Diskussion mit dem Rezensenten aufzunehmen. Es gibt sogar die Möglichkeit, ihn zu überzeugen, die Entscheidung zu ändern (ein solches System funktioniert jedoch weit entfernt von allen Konferenzen und es ist möglich, das Urteil noch seltener ernsthaft zu beeinflussen). In der Diskussion kann nicht auf andere wissenschaftliche Arbeiten verwiesen werden, mit Ausnahme derjenigen Verweise, auf die der Artikel bereits existiert. Sie können dem Rezensenten nur helfen, den Inhalt des Artikels besser zu verstehen.



    Konferenzen und Zeitschriften


    Artikel zur Informatik werden häufiger an Konferenzen als an wissenschaftliche Zeitschriften verschickt. Der Grund dafür ist, dass es Anforderungen an Veröffentlichungen in Zeitschriften gibt, die schwieriger einzuhalten sind, und der Überprüfungsprozess Monate oder sogar Jahre dauern kann. Die Informatik ist eine schnell wachsende Branche, weshalb Autoren in der Regel nicht so lange auf die Veröffentlichung warten. Der bereits für die Konferenz akzeptierte Artikel kann dann jedoch ergänzt werden (z. B. um detailliertere Ergebnisse zu erzielen) und in einer Zeitschrift veröffentlicht werden, in der die Beschränkungen des Umfangs nicht so streng sind.

    Konferenzveranstaltungen


    Das Format der Anwesenheit von Autoren genehmigter Artikel auf der Konferenz wird von den Gutachtern festgelegt. Wenn der Artikel grünes Licht erhält, weisen Sie am häufigsten einen Stand für ein Poster zu. Ein Poster ist eine statische Folie mit einer Zusammenfassung des Artikels und Abbildungen. Ein Teil der Konferenzräume ist mit langen Reihen von Plakatständern gefüllt. Die meiste Zeit verbringt der Autor mit Gesprächen mit Wissenschaftlern, die sich für den Artikel interessieren.





    Eine etwas prestigeträchtigere Teilnahmemöglichkeit ist ein kurzer Bericht (Lightning Talk). Wenn Rezensenten einen Artikel gefunden haben, der einen kurzen Bericht verdient, hat der Autor etwa drei Minuten Zeit, um ein breites Publikum anzusprechen. Einerseits ist das Blitzgespräch eine gute Gelegenheit, über Ihre Idee zu sprechen, nicht nur mit denen, die sich von sich aus für das Plakat interessiert haben. Auf der anderen Seite sind die Initiativbesucher des Plakats eher auf Ihr Thema vorbereitet als der durchschnittliche Zuhörer in der Halle. Daher muss man in einem kurzen Bericht noch Zeit haben, um die Leute auf den neuesten Stand zu bringen.



    Normalerweise rufen die Autoren am Ende ihres Blitzvortrags die Posternummer an, damit die Zuhörer sie finden und den Artikel besser verstehen können.



    Die letzte, prestigeträchtigste Option ist ein Poster sowie eine vollständige Präsentation der Idee, wenn Sie nicht mehr in die Geschichte stürzen müssen.



    Aber natürlich kommen Wissenschaftler - einschließlich der Autoren genehmigter Artikel - zur nächsten Konferenz, um sich nicht nur zu zeigen. Zunächst suchen sie aus offensichtlichen Gründen nach Plakaten, die sich auf ihr Fachgebiet beziehen. Zum anderen ist es wichtig, dass sie die Kontaktliste für künftige gemeinsame wissenschaftliche Arbeiten auffüllen. Dies ist keine Jagd - oder zumindest ihre allererste Phase, gefolgt von einem für beide Seiten vorteilhaften Austausch von Ideen, bewährten Praktiken und gemeinsamer Arbeit an einem oder mehreren Artikeln.

    Gleichzeitig ist eine produktive Vernetzung auf einer Spitzenkonferenz aufgrund des völligen Mangels an Freizeit schwierig. Wenn der Wissenschaftler nach einem ganzen Tag voller Berichte und Diskussionen mit Postern seine Kraft bewahrt und den Jetlag bereits überwunden hat, geht er auf eine der vielen Partys. Sie sind zufrieden mit dem Unternehmen - infolgedessen jagen die Parteien oft mehr. Viele Gäste nutzen sie jedoch nicht, um einen neuen Job zu finden, sondern um sich zu vernetzen. Abends gibt es keine Berichte und Poster - es ist einfacher, den Fachmann zu „fangen“, an dem Sie interessiert sind.



    Von der Idee bis zur Produktion


    Die Informatik ist eine der wenigen Branchen, in denen die Interessen von Unternehmen und Start-ups in engem Zusammenhang mit dem akademischen Umfeld stehen. Auf der NIPS, der ICML und anderen ähnlichen Konferenzen kommen viele Experten aus der Industrie und nicht nur von Universitäten. Für die Informatik ist dies typisch, für die meisten anderen Wissenschaften jedoch umgekehrt.

    Auf der anderen Seite geht es bei weitem nicht um alle Ideen, die in den Artikeln zum Ausdruck kommen, um die Schaffung oder Verbesserung von Dienstleistungen. Selbst innerhalb eines Unternehmens kann ein Forscher den Kollegen des Dienstes eine bahnbrechende Idee nach wissenschaftlichen Maßstäben anbieten und aus einer Reihe von Gründen von der Implementierung ausgeschlossen werden. Eine davon wurde hier bereits erwähnt - das ist der Unterschied zwischen dem „akademischen“ Datensatz, für den der Artikel geschrieben wurde, und dem tatsächlichen Datensatz. Darüber hinaus kann sich die Einführung der Idee verzögern, eine große Menge an Ressourcen erfordern oder nur einen Indikator verbessern, was die Verschlechterung anderer Metriken zur Folge hat.



    Die Situation wird durch die Tatsache gerettet, dass viele Entwickler und wenige Forscher selbst. Sie nehmen an Konferenzen teil, sprechen mit Wissenschaftlern in derselben Sprache, bieten Ideen an, beteiligen sich manchmal an der Erstellung von Artikeln (z. B. beim Schreiben von Code) oder fungieren sogar als Autoren. Wenn ein Entwickler in einen akademischen Prozess verstrickt ist, überwacht er, was in der Forschungsabteilung geschieht, in einem Wort, wenn er eine wechselseitige Bewegung gegenüber Wissenschaftlern demonstriert, verringert sich der Zyklus, in dem wissenschaftliche Ideen in neue Möglichkeiten für Dienstleistungen umgewandelt werden.



    Wir wünschen allen jungen Forschern viel Glück und große Erfolge bei ihrer Arbeit. Wenn Sie in diesem Beitrag nichts Neues erfahren haben, wurden Sie möglicherweise bereits auf der Top-Konferenz veröffentlicht. Melden Sie sich selbst für die Auszeichnung an und ernennen Sie die wissenschaftlichen Leiter.