Technosphere Mail.Ru: Studentenprojekte, Labor- und Datenwissenschaftsmeisterschaften

    Seit 2014 an der Moskauer Staatlichen Universität. MV Lomonosov hat ein Ausbildungsprogramm im Bereich Data Mining und Information Retrieval von Mail.Ru Group. Ihre Studierenden studieren verschiedene Disziplinen in diesem Bereich und absolvieren Praktika in den entsprechenden Abteilungen des Unternehmens sowie im Labor der Moskauer Staatlichen Universität, das wir im Herbst 2014 eröffnet haben. Wir haben bereits hier und hier über die Technosphäre geschrieben , und in diesem Artikel möchten wir Ihnen mehr über das Schulungsprogramm, seine Ergebnisse, die Aktivitäten des Labors innerhalb der Universität sowie ein kurzes Interview mit den Praktikanten des Programms erzählen.



    Technosphere-Programm


    Derzeit besteht das Programm aus vier Semestern und zehn Disziplinen, einige davon jährlich (zwei Semester dauern an). In jeder Disziplin wird der Schwerpunkt auf die Praxis gelegt, die Studierenden führen das Projekt einzeln oder in Gruppen durch. Anfänglich war das Technosphere-Programm ein jährliches Programm, aber bald stellten wir fest, dass dies nicht genug war, und beschlossen, es auf zwei Jahre auszudehnen, wodurch die Studiendauer einiger Disziplinen verlängert wurde. Wir haben nur eine Disziplin hinzugefügt, "Einführung in die Datenanalyse", die einige notwendige Aspekte aus dem Bereich der Mathematik und Statistik sowie die Hauptthemen zu den verwendeten Werkzeugen (Programmiersprachen, Bibliotheken usw.) hervorhob. Vorträge zu diesem Kurs finden Sie auf unserem YouTube-Kanal.. Andere Disziplinen haben wir erweitert. Insbesondere wurde der Multithread-Programmierung in C ++ ein Teil zur eingehenden Untersuchung von C ++ hinzugefügt, und der Block zum Abrufen von Informationen wurde zum Schlüssel.

    Außerdem haben wir einen Vorbereitungskurs "Algorithmen und Datenstrukturen" hinzugefügt, um denjenigen zu helfen, die aus anderen Fakultäten stammen. In diesem Kurs analysieren die Jungs verschiedene grundlegende Algorithmen und lernen, Datenstrukturen für bestimmte Aufgaben angemessen auszuwählen. Diese Vorträge sind auch auf der entsprechenden YouTube- Wiedergabeliste verfügbar .

    Bildungsprojekte in Entwicklung (einige interessante Beispiele)


    Einführung in die Datenanalyse. Während des Semesters müssen die Studierenden eine reproduzierbare Studie auf der Grundlage offener Daten absolvieren. Die Arbeit erfolgt in Gruppen von 4-6 Personen, jedes Team hat ein eigenes Thema. Die Studie wird in Project Jupyter durchgeführt, es dürfen die Sprachen Python, R, Java verwendet werden; Es sollte auf einer CRISP-DM ähnlichen Methodik basieren, die die Phasen der Studie definiert.

    Als erste Datensätze werden den Kindern verschiedene Optionen angeboten (offene Daten der US-Regierung, Daten des US-amerikanischen Soziologischen Dienstes, UN-Daten, offenes Datenportal der Europäischen Union), und Sie können auch selbst einen anderen Datensatz finden.

    Algorithmen zur intellektuellen Verarbeitung großer Datenmengen.Die Aufgabe, Nutzer des sozialen Netzwerks Twitter zu klassifizieren, wird gelöst. Die Schüler erhalten eine Liste mit Benutzerkennungen als Eingabe, für einige von ihnen wird die Kategorie angegeben, zu der der Benutzer gehört. Ein Beispiel für eine Kategorie kann eine Leidenschaft für Computerspiele sein (süchtig / nicht betroffen). Ziel des Projekts ist es, einen Algorithmus zu erstellen, der die Kategorie der Benutzer, für die er nicht angegeben ist, am genauesten vorhersagt. Während des Kurses sammeln die Kursteilnehmer unabhängig Daten mithilfe der APIs für offene Webdienste, implementieren und wenden verschiedene Algorithmen zum Erstellen und Auswählen von Funktionen sowie Algorithmen für maschinelles Lernen an.

    Methoden zur Verarbeitung großer Datenmengen. Das Abschlusssemesterprojekt widmet sich der Bestimmung des Vorhandenseins von Mutationen in Zellen. Hierzu wurde der p53-Mutantendatensatz verwendet., die eine voreingenommene Verteilung der Etiketten aufweist: weniger als 1% der positiven Proben. Die Arbeit kann in jeder Programmiersprache erledigt werden, aber meistens verwenden die Jungs Python und C ++.

    Die zweijährige Ausbildung der Kinder schließt das Semester ab und widmet sich ganz der Entwicklung des Abschlussprojekts in Teams. Was wird es sein? Wir werden es Ihnen im Frühjahr nächsten Jahres sagen, wenn die Jungs ihr Studium vor dem vierten Semester beenden.



    Wo praktizieren die Studenten?


    Das Wissen und die Fähigkeiten, die die Studierenden in der Technosphäre erwerben, können in verschiedenen Abteilungen angewendet werden - Werbetechnologien (Advertising Targeting, Kategorisierung von Nachrichten), Mail.Ru Search, Antispam. Derzeit sind von 23 Absolventen der Technosphere 12 Auszubildende in den Projekten Tarantool, My World, Mail und einigen anderen. Wir haben sie gebeten, ihre Eindrücke zu teilen.

    Svyatoslav Feldsherov

    - In welcher Abteilung arbeiten Sie?

    - Ich arbeite seit ungefähr drei Monaten in der Tarantool-Abteilung. Ich habe es gewählt, weil ich mir mehr oder weniger vorgestellt habe, was das Team macht, und ich mochte die Atmosphäre darin. Außerdem unterrichtete unser Leiter Konstantin Osipov einen Semesterkurs in der Technosphäre, der auf seine Art schwierig und aufregend war: Er wusste sofort, dass er eine Vielzahl von coolen Aufgaben hatte.

    - Welche Aufgaben lösen Sie?

    - Ich arbeite an einer großen und umfangreichen Aufgabe - der Implementierung der SQL-Unterstützung in Tarantool. Neben mir ist sie in einem anderen Graduierten der Technosphäre beschäftigt. Tatsache ist, dass die Kommunikation mit Tarantool jetzt in der Sprache Lua erfolgt und wir die Möglichkeit der Verwendung von SQL implementieren. Die Hauptidee ist, dass mehr Benutzer mit unserem System arbeiten können. Wir schreiben hauptsächlich in C und C ++.

    - Wo werden die Arbeitsergebnisse angewendet?

    - Noch nicht anwendbar. Wir machen einen Prototyp und dann wird es eine Refactoring-Phase geben und eine große Aufbereitung unserer Ergebnisse durch erfahrenere Teilnehmer. Im Allgemeinen haben wir noch einen langen Weg vor uns.

    - Wie lauten die Entwicklungspläne - in welchen Einheiten möchten Sie arbeiten?

    "Mir gefällt, was ich gerade mache." Wenn alles zusammenpasst und ich verstehe, dass dies meins ist, möchte ich mich mit diesem Bereich befassen. Aber manchmal liest du Artikel, sprichst mit deinen Kameraden und willst wirklich alles aufgeben und dich weiterhin mit Datenanalyse beschäftigen (dies war der Hauptbereich des Studiums in der Technosphäre). Aber es ist noch völlig unverständlich, wie es ausgehen wird. Die Zeit wird zeigen.

    Mikhail Galkov

    - In welcher Abteilung arbeiten Sie, wie ist Ihr Eindruck?

    - Ich arbeite in der Abteilung für Empfehlungssysteme, obwohl ich erwartet hatte, dass ich in der Suche arbeiten würde. Ich wusste wenig über Empfehlungssysteme, ich traf mich nur bei einem Vortrag in der Technosphäre, also musste ich das erste Mal Wissen einholen und viele wissenschaftliche Artikel zum Thema lesen, aber es gab genug Motivation: Wir hatten sehr ehrgeizige Aufgaben, die wirklich interessant zu lösen waren. Nach dem, was in den Vorträgen gesagt wurde, wurde fast alles auf die eine oder andere Weise bestätigt. Big Data ist wirklich groß. Das Verstehen der Algorithmen und Werkzeuge für ihre Verarbeitung hat sehr geholfen, die Zeitverteilung für die Arbeit mit Daten / Algorithmen hat sich als nahezu richtig erwiesen, für mich schätze ich etwa 70 bis 30. - Welche Probleme haben Sie

    zu Beginn des Praktikums gelöst?

    - Zuerst habe ich Artikel mit verschiedenen Algorithmen analysiert, ihre Eigenschaften untersucht und sie mit verschiedenen Metriken verglichen.

    - Welche Aufgaben lösen Sie jetzt?

    - Meistens erstelle ich Algorithmen für unser universelles Empfehlungssystem und bereite Daten vor.

    - Wo werden die Arbeitsergebnisse angewendet?

    - In Klassenkameraden und auf der Hauptsuche.

    - Wie lauten die Entwicklungspläne - in welchen Einheiten möchten Sie arbeiten?

    - Ich möchte mich vorerst weiter mit Empfehlungen befassen, aber es wäre interessant, das erworbene Wissen in der Suche selbst anzuwenden.

    - Was sind Ihre Eindrücke vom Mentor?

    - Ich hatte großes Glück, dass Dmitry Soloviev mein Mentor war. Neben nützlichen Kommentaren und Hilfestellungen bei der Festlegung von Zielen und deren Erreichung schätze ich insbesondere den Austausch neuer Ideen und die Bereitschaft, Neues auszuprobieren.

    Technosphere Labor für Studenten




    Im Herbst 2014, nur sechs Monate nach dem Start der Technosphere, beschlossen wir, ein eigenes Labor zu eröffnen, in dem die Studenten unseres Projekts an realen Aufgaben aus den Abteilungen des Unternehmens arbeiten konnten. Als am meisten an der Delegation von Aufgaben interessierte Studierende erwies sich eine der Abteilungen der Abteilung Werbetechnik, die sich mit der Zielgruppensegmentierung befasst. Wir haben dem Leiter dieser Einheit, Arthur Kadurin , mehrere Fragen gestellt. Lesen Sie unser Interview weiter unten.

    - Welche Aufgaben wurden den Jungs beim Entwerfen des Labors gestellt?

    - Zunächst wollten wir den Kindern verschiedene Aufgaben geben - sowohl forschende als auch angewandte. Für uns als Unternehmen war es jedoch schwierig, sofort zu glauben, dass die Schüler einen Teil der Aufgaben außerhalb des Unternehmens aus der Ferne erledigen können, da es für uns wichtig ist, dass die Aufgabe nicht nur erledigt, sondern rechtzeitig erledigt wurde. Gleichzeitig wollten wir unbedingt versuchen, mit Studenten zusammenzuarbeiten, und unter allen Aufgaben, die von der Abteilung gelöst wurden, wählten wir die für die Fernarbeit am besten geeigneten aus - Aktualisierung der Kategorien innerhalb des Katalogs der Werbeabschnitte. Dies ist sowohl für Benutzer unseres Systems wichtig (Werbetreibende sind daran interessiert, die geeignete Zielgruppe auszuwählen, damit sie das Werbebudget effizienter einsetzen können) als auch für Besucher von Websites, auf denen unser Werbesystem ausgeführt wird (ihnen wird weniger uninteressante Werbung angezeigt, für Banner weniger negativ). .

    - Und wer arbeitet im Labor?

    - Zum Zeitpunkt der Gründung des Labors waren bereits zwei Mitarbeiter in unserer Abteilung beschäftigt - ein Absolvent des Technoparks der MSTU im. Bauman plante daher bei der Konzeption des Labors zunächst, etwa zehn Laborassistenten aus allen Bildungsprogrammen zu rekrutieren. Da die vorgeschlagenen Aufgaben jedoch sehr spezifisch sind und eine Vorbereitung erfordern, haben wir beschlossen, nur Mitarbeiter aus der Technosphäre zu rekrutieren.

    Zu einem bestimmten Zeitpunkt arbeiten ungefähr acht Personen im Labor. Leider gibt es ein Rinnsal. Dies hängt mit der Tatsache zusammen, dass das Programm jährlich stattfand und die Mitarbeiter nach Abschluss des Technosphere-Studiums in die Abteilungen des Unternehmens wechselten. Nachdem das Programm nun seit zwei Jahren läuft, hat sich die Situation verbessert.

    - Welche Aufgaben löst das Labor?

    - Jetzt haben wir einige grundlegend verschiedene Arten von Aufgaben. Der obligatorische Teil der Arbeit ist in der Tat das Zubehör-Markup. Die Jungs sammeln thematische Websites und Seiten, schreiben reguläre Ausdrücke oder wählen Schlüsselwörter aus, damit wir das Interesse des Benutzers genauer verstehen oder feststellen können, dass sich das Interesse geändert hat. Darüber hinaus bewerten sie selbst die Qualität der Arbeit ihrer Kollegen, überprüfen anonymisierte Daten, ob das System die Seiten korrekt gestaltet, und korrigieren Fehler. Vielleicht nimmt diese Arbeit die meiste Zeit in Anspruch.

    Ein wesentlicher Teil des Markup-Prozesses ist jedoch auf die eine oder andere Weise automatisiert, und die Jungs machen einen wesentlichen Teil dieser Automatisierung aus. Sie schreiben Skripte, um die Site-Struktur zu verarbeiten, Schlüsselwörter zu sammeln und Daten für das Schreiben regulärer Ausdrücke vorzubereiten. Außerdem automatisieren sie die Kompilierung regulärer Ausdrücke.

    Natürlich arbeiten wir mit einer großen Anzahl von Domains und einer noch größeren Anzahl von Seiten, sodass die gesammelten Daten häufig mit Hadoop gespeichert und verarbeitet werden müssen. Anschließend schreiben die Jungs die MapReduce-Aufgaben selbst und führen sie in unserem Trainingscluster aus.

    Wie dem auch sei, ein Teil der Arbeit, nämlich die Beurteilung von Sachverständigen, kann nicht automatisiert werden. Und der Hauptwert der Arbeit von Laborassistenten für uns ist diese sehr „menschliche“ Untersuchung. Zunächst dachten wir, es wäre schön, einmal im Jahr Zeit zu haben, um den Themenkatalog vollständig zu aktualisieren. Dank der Automatisierung durch Laborassistenten passen wir jetzt in 4-6 Monate und werden höchstwahrscheinlich schneller.

    Neben Aufgaben, die in direktem Zusammenhang mit dem Themenkatalog stehen, haben wir uns Ende letzten Jahres entschlossen, im Labor zu forschen. Wahrscheinlich sind dies auch keine wissenschaftlichen Aufgaben im vollen Sinne, da sie in jedem Fall aus der Wirtschaft stammen, es sich jedoch um Studien handelt und KPI Artikel und Reden auf Konferenzen hat. Dazu haben wir zwei Mitarbeiter aus dem Bereich „Produktion“ des Labors sowie unsere Kuratorin, meine Mitarbeiterin Larisa Markeeva, ausgewählt. Bisher können wir keine signifikanten Ergebnisse vorweisen, aber ich kann sagen, dass das, was die Jungs bereits getan haben, ermutigend ist.

    - Wie ist das Labor aufgebaut?

    - Neben mir werden die Jungs von unserem Kollegen von der Moskauer Staatsuniversität Sergey Stupnikov betreut. Sergey arbeitet seit 2008 an der Fakultät des VMK und ist leitender Forscher am Institut für Informatikprobleme der Russischen Akademie der Wissenschaften. Im Labor der Technosphere überwacht er jede Woche die Arbeit der Jungs, was die Delegation der Aufgaben vom Unternehmen an die Universität sicherstellt.

    Über die internen Aufgaben des Labors haben wir den Kurator Sergei Stupnikov befragt .

    - Gibt es Unterschiede in der Formulierung und Lösung von Geschäftsproblemen und keine wissenschaftlichen?

    - Im Geschäftsleben reicht es oft aus, in der Literatur eine passende Lösung zu finden und an die Bedürfnisse des Unternehmens anzupassen. Gleichzeitig ist es natürlich notwendig, die Implementierung auf ein industrielles Niveau zu bringen, um die Effizienz zu steigern. Für wissenschaftliche Aufgaben sind das Auftreten einer neuen Idee und deren Prototyping charakteristisch.

    - Erzählen Sie uns von den Aufgaben, die ursprünglich für das Labor gestellt wurden?

    - Das Labor ist eine Abteilung der Technosphäre, die Studierende des Projekts zusammenbringt und es ihnen ermöglicht, sowohl rein praktische Probleme als auch Aufgaben mit einer wissenschaftlichen Komponente zu lösen und dafür eine Vergütung zu erhalten. Zu meinen Aufgaben gehört die Koordination von Praktika und die Berichterstattung an die Abteilung Datenanalyse sowie die Forschungs- und Ausbildungsabteilung. Der wissenschaftliche Teil hat nun einige interessante Aufgaben. Einige von ihnen sind mit dem Giraph-Framework verbunden, das ein Rechenmodell für die iterative Graphanalyse implementiert. Es können verschiedene interessante Algorithmen implementiert werden. Die Bemühungen konzentrieren sich nun auf Aspekte des Tiefenlernens. Es gibt viele Perspektiven für diese Methode, und auch die Mitarbeiter des Unternehmens sind daran beteiligt.

    - Wie hilft die Arbeit im Labor den Studierenden bei ihren Forschungsaktivitäten?

    - Natürlich haben wir uns in letzter Zeit mehr mit angewandten Aufgaben beschäftigt. Aber Arbeit hilft dabei, verschiedene Fähigkeiten zu erwerben, einschließlich Erfahrung in der Kommunikation mit dem Management und im Team. Ich hoffe, dass es in Zukunft ein wissenschaftliches Ergebnis der Arbeit der Jungs geben wird.

    Ich kann einige Bestandteile der Arbeit im Labor hervorheben. Das Wichtigste ist die Fähigkeit und der Wunsch, neue Ideen zu generieren, die sowohl in der Praxis als auch in der Wissenschaft zunächst gering sein können. Praktische Fähigkeiten können auch hervorgehoben werden:

    • Aufgaben mit einer wissenschaftlichen Komponente beinhalten das Lesen und Analysieren von wissenschaftlichen Artikeln, auch in englischer Sprache;
    • Sie müssen in der Lage sein, Ihre Aufgaben (Programmalgorithmen) zu prototypisieren und ihre Wirksamkeit zu demonstrieren.
    • Sie müssen in der Lage sein, Ihre Ergebnisse zu präsentieren und in Form von Berichten und Artikeln zu verfassen.

    - Wann ist es besser zu tun?

    - Das Labor erfordert viel Zeit und Selbstdisziplin. Die Arbeit im Labor ermöglicht es Ihnen, nicht in verschiedene Bereiche zu sprühen (wenn die Studenten oft nicht ganz von ihrer Spezialität leben), sondern sich auf eine Sache zu konzentrieren - die Datenanalyse. Studierende, die in der Technosphäre studieren, haben Aufgaben für das Grundstudium an der Universität, für das Studium in der Technosphäre, und wenn sie alles in diesen beiden Bereichen tun, empfehle ich, zusätzliche Arbeit im Labor aufzunehmen.

    - Was würdest du den Schülern wünschen?

    - Ich würde ihnen wünschen, ein interessantes Betätigungsfeld zu wählen, mit dem sie sich in ihrem Leben beschäftigen werden. Damit bietet die Universität neben der Studienfähigkeit die Möglichkeit, verschiedene Geschäftsfelder kennenzulernen, in denen Sie eine interessante Anwendung Ihrer Kenntnisse und Fähigkeiten finden können. Ich freue mich, dass MSU-Studierende eine solche Chance haben.

    Auch die Laborpraktikanten Anton Goy und Miras Amir teilten ihre Eindrücke von der Arbeit im Labor.

    Anton Goy

    - Was hast du von deinem Praktikum erwartet und was sind deine Eindrücke?

    - Es ist toll, dass ich studiere, zu Hause bin und eng zusammenarbeite. Während der Arbeit habe ich viele Methoden herausgefunden. Es gab mehr globale Herausforderungen. Ich habe zwei Mentoren. Sie helfen, umstrittene Probleme zu lösen, das ist großartig.

    - Wo werden die Ergebnisse Ihrer Arbeit angewendet?

    - In gezielter Werbung. Wir schalten Nutzeranzeigen basierend auf ihrem bisherigen Verhalten. Wenn eine Person die in unserem Katalog enthaltenen Websites besucht, versteht das System dies und zeigt an, was sie sonst noch interessiert.

    - Gab es lustige Geschichten während der Arbeit?

    - Ich bin auf verschiedene Themen gestoßen, von denen einige lustig waren. Dank meiner Arbeit verstehe ich jetzt alle Arten von alkoholischen Getränken und weiß alles über das Kreditsystem. Manchmal gibt es auch lustige Site-Namen.

    - Wie hilft die Arbeit in der Wissenschaft?

    - Jetzt befasse ich mich mit einem Projekt zur Neurophysiologie - der Bestimmung von Bereichen des Gehirns, die durch Bilder miteinander verbunden sind. Es gibt viele Daten, die korrekt verarbeitet werden müssen. In dieser Arbeit werde ich die in der Technosphäre und im Labor gewonnenen Erkenntnisse nutzen.

    - Was willst du machen?

    - Maschinelles Lernen, Datenanalyse. Ab dem nächsten Studienjahr habe ich vor, in eine Abteilung des Unternehmens zu wechseln, in der es geeignete Aufgaben gibt.

    Miras Amir

    - Was sind Ihre Eindrücke von der Arbeit im Labor?

    - Ich habe vor kurzem weniger als einen Monat im Labor gearbeitet. In zwei Wochen habe ich ein paar neue Dinge gelernt, mich mit den Jungs unterhalten und bin dadurch deutlich gewachsen. Der Mentor stellt uns praktische Aufgaben, die sich stark von den Aufgaben an der Universität unterscheiden. Sie sehen das Problem sofort anders und entwickeln sich professionell weiter.

    - Wie hilft die Arbeit in der Wissenschaft?

    - Da die Tätigkeiten im Labor eng mit den Disziplinen meines Lehrplans an der Abteilung für MMP verknüpft sind, wirkt sich die Kombination positiv auf meine Leistung und Selbstentwicklung aus: Sie hilft, verantwortungsbewusster mit dem Geschäft umzugehen und meine Zeit auf hochwertige Weise zu verteilen.

    - Wie sehen Sie Ihre Entwicklung?

    - Kürzlich fiel mir eine Stelle in der Datenanalyse auf. Wenn ich hier Erfahrung sammle, bewerbe ich mich um eine ernsthaftere Stelle im Unternehmen.

    - Was würdest du den Jungs wünschen, die gerade studieren und immer noch nicht arbeiten?

    „Ich würde ihnen wünschen, dass sie ihre Zeit so organisieren, dass sie so schnell wie möglich mit der Arbeit beginnen.“ Da sich die Fähigkeit, in einem Team zu arbeiten, weiterentwickelt, werden Erfahrungen gesammelt.



    Nach einem Jahr Laborarbeit haben wir die Leistung der Mitarbeiter im Vergleich zu Auftragnehmern und Mitarbeitern ohne Grundausbildung auf dem Gebiet der Datenanalyse zusammengefasst und berechnet. Es stellte sich heraus, dass die Jungs einen tollen Job gemacht haben. Sie erfüllten nicht nur die Aufgaben, die ihnen Sergey Stupnikov, der Labor-Mentor an der Moskauer Staatlichen Universität, gestellt hatte, sondern entwickelten und boten eigenständig Automatisierungswerkzeuge für diese Aufgaben an. Einige davon wurden geringfügig ergänzt und in die Geschäftsprozesse des Unternehmens implementiert.

    Im Herbst 2015 wurde die zweite Richtung innerhalb des Labors gestartet - Forschung. Diese Themen sind auch im Unternehmen zeitlich vorgegeben. Insbesondere prüfen wir aktiv die Möglichkeit, neuronale Netze für geschäftliche Aufgaben einzusetzen. Leider sind wir jedoch noch nicht bereit, sie „im Kampf“ zu testen: Es ist noch nicht klar, ob ihre Arbeit enorme Ressourcen erfordert und neue Methoden zum Einsatz kommen.

    Trotzdem laufen die Arbeiten und wir haben Praktikanten aus dem Labor mit ihrer Lösung verbunden. Derzeit forschen zwei der sechs Praktikanten im Labor wissenschaftlich.

    Die Jungs wurden mit dem MCL-Algorithmus beauftragt. Es zielt darauf ab, Clustering in einem Diagramm zu erstellen.

    Im März 2016 wurde Larisa Markeeva die Kuratorin der Regie. Zusammen mit Arthur Kadurin stellten sie den Jungs eine wissenschaftliche Aufgabe.

    Die Teilnehmer mussten die grundlegende Interpretation des RBM-Algorithmus (eingeschränkte Boltzmann-Maschine) verstehen und im Giraph-Framework implementieren. Daher sollten die Jungs ein verteiltes Computersystem auf Graphen aufbauen, das auf der Pregel-Architektur basierte.

    Mit dieser Technik können Sie neuronale Netze vorab trainieren. Ein neuronales Netzwerk, das in einem Cluster lernen kann, kann in Zukunft beispielsweise zur Optimierung der Klickrate in der Werbung verwendet werden.

    Wie wir bereits erwähnt haben, werden wir vorerst neuronale Netze in Experimenten verwenden. Vielleicht wird diese Betriebszeit in Open Source ausgelegt.

    Im Rahmen der wissenschaftlichen Ausrichtung des Praktikums wird vorgeschlagen, verschiedene Technologien einzusetzen: Java, Hadoop. Für die Visualisierung und das Prototyping wird Python, Notebook verwendet. Plant auch die Verwendung von Apache Spark. Potenziell können die Algorithmen, die die Auszubildenden erforschen und entwickeln, die Grundlage für Bachelor- oder Masterarbeiten sein.

    Wir haben einen der Praktikanten, Pavel Kovalenko , nach der Arbeit in der wissenschaftlichen Abteilung des Labors gefragt :

    - Welche Eindrücke haben Sie vom Labor?

    - Ich wurde im Februar letzten Jahres eingeladen, im Labor zu arbeiten. Für mich ist dies die erste Erfahrung dieser Teamarbeit. Das Format des Labors eignet sich sehr gut zur Kombination mit dem Studium: Arbeit zu Hause sowie ein wöchentliches Treffen an der Universität.

    - Welche Aufgaben haben Sie zu Beginn gelöst?

    - Am Anfang haben wir so etwas wie Assessoren gearbeitet. In regulären Ausdrücken war es erforderlich, die Seiten großer Websites nach ihrem Inhalt (Autos, Immobilien, Kleidung usw.) zu kennzeichnen. Eine Reihe von Schulungsbeispielen ist der erste Schritt zur Lösung des Problems der automatisierten Klassifizierung von Seiten nach Themen, an dem derzeit mehrere Studenten des Labors arbeiten.

    - Welche Aufgaben lösen Sie jetzt?

    - Anfang dieses Jahres wurde mir und meinem Kollegen Alexander Shcherbakov eine neue interessante Aufgabe angeboten: mit Apache Giraph (Add-On für Hadoop zur verteilten Verarbeitung von Grafiken) zu arbeiten, nämlich eine verteilte Version einer limitierten Boltzmann-Maschine zu erstellen. Sie sagen, dass jemand bei Mail.Ru Group die Boltzmann-Maschine auf wirklich große Datenmengen anwenden muss.

    - Wie hilft die Technosphäre beim wissenschaftlichen Arbeiten?

    - Für mich ist die Technosphäre zu einem unverzichtbaren Erlebnis geworden. Vielleicht bin ich etwas früher hingegangen - zu Beginn des zweiten Jahres. Viele Momente waren für mich unverständlich. Insbesondere für den Data Mining-Kurs sind gute Kenntnisse der Wahrscheinlichkeitstheorie erforderlich, die ich damals jedoch überhaupt nicht hatte. Die Technosphäre hat meine Wahl der Abteilung am VMK beeinflusst - mir haben der Data Mining-Kurs und die Ideen des maschinellen Lernens sehr gut gefallen, und so bin ich zur Abteilung für mathematische Prognosemethoden gegangen, die sich eigentlich mit maschinellem Lernen befasst. Für die Arbeit im Labor ist der Kurs Hadoop Technosphere sehr hilfreich. Wo sonst kann ich praktische Fähigkeiten erwerben, um in einem echten Cluster zu arbeiten?

    So kam es, dass die Aufgaben, die wir im Labor erledigen, eng mit meinem Studium an der Abteilung zusammenhängen, sodass sich die eine nicht in die andere einmischt, sondern diese ergänzt. Die praktische Anwendung der in Vorlesungen erworbenen Kenntnisse hilft, die Funktionsprinzipien von Algorithmen besser zu verstehen.

    - Was sind deine Entwicklungspläne?

    - Ich will mich noch nicht so freuen. Ich glaube, dass an der Universität die meiste Zeit dem Studium und der wissenschaftlichen Arbeit gewidmet werden sollte. Aus diesem Grund ist das Laborformat so praktisch: Sie können zu einer günstigen Zeit arbeiten, ohne studieren zu müssen, und Sie müssen nicht weit reisen.

    - Was sind Ihre Eindrücke vom Mentor?

    - Mit einer neuen Aufgabe haben wir eine neue Mentorin - Larisa Markeeva. Es ist sehr angenehm, mit ihr zu arbeiten, weil sie sich in diesem Bereich sehr gut auskennt (Hadoop und Giraph) und immer offen für Kommunikation ist, Schwierigkeiten löst und Ratschläge zur Umsetzung gibt. In dieser Hinsicht ist kürzlich eine lustige Geschichte passiert. Für die Arbeit benötigten wir Hive (ein Add-On für Hadoop zur verteilten Datenverarbeitung mit SQL-ähnlichen Befehlen). Hive wurde im Trainingscluster installiert, funktionierte jedoch aufgrund falscher Konfiguration überhaupt nicht. Larisa schrieb an jemanden in der Firma, der für die Verwaltung des Clusters verantwortlich war, und versprach, es bald herauszufinden. Am nächsten Tag verließ er die Mail.Ru Group. Ich hoffe, das haben wir ihm nicht gebracht. :)

    Data Science Championships Mail.Ru-Gruppe


    Neben dem Training im Bereich großer Datenmengen finden in der Mail.Ru-Gruppe auch zwei große Meisterschaften statt, bei denen sich Kinder versuchen können: der Russian AI Cup und das ML Boot Camp .

    Der Russian AI Cup ist eine jährliche Meisterschaft im Programmieren künstlicher Intelligenz, die sich an Spielstrategien orientiert.

    Es war vier Jahre in Folge. Jedes Mal sind die Aufgaben unterschiedlich. In diesem Jahr mussten die Teilnehmer das Verhalten des Rennwagens so programmieren, dass es Hindernissen erfolgreich aus dem Weg ging, nicht gegen die Wände der Strecke stieß und auch nicht auf die Autos anderer Teilnehmer schoss.

    Meisterschaftsgewinner erhalten traditionell wertvolle Geschenke, der Preispool beträgt etwa eine Million Rubel, aber am wichtigsten ist, dass absolut alle Teilnehmer ihre Fähigkeiten in der Programmierung künstlicher Intelligenz verbessert haben. Den Ergebnissen des Wettbewerbs zufolge hat der Gewinner des russischen AI Cup 2015 einen Job bei der Mail.Ru Group bekommen und entwickelt nun künstliche Intelligenz für die Spieleprojekte des Unternehmens.

    ML Boot Camp ist die neue Entwickler-Schulungsinitiative für maschinelles Lernen der Mail.Ru Group. Auf der Plattform haben die Teilnehmer die Möglichkeit zu lernen, Probleme beim maschinellen Lernen und bei der Datenanalyse zu lösen, sich an Wettbewerben zu versuchen und wertvolle Preise zu gewinnen. Wer möchte, kann zwischen den Wettbewerben üben, das Trainingsmaterial beherrschen und Testprobleme lösen. In regelmäßigen Abständen werden zweiwöchige Wettbewerbe ausgeschrieben, um die besten Spezialisten für maschinelles Lernen hervorzuheben und sie dann mit Preisen zu belohnen.



    ***

    Wir hoffen, dass wir bald die ersten wissenschaftlichen Ergebnisse des Labors veröffentlichen können. Wir empfehlen Ihnen jedoch, sich vorerst mit den Materialien vertraut zu machen, die im Zusammenhang mit der Datenforschung stehen und im Rahmen des Technosphere-Projekts veröffentlicht wurden:

    1. Kurs auf Stepic von Hadoop
    2. Multithreaded C ++ Kurs
    3. Vorträge auf YouTube

    Jetzt auch beliebt: