RDMA im Rechenzentrum bei der Implementierung von Huawei

    Im Gespräch darüber, welchen Ansatz Huawei bei der Organisation des direkten Remote-Speicherzugriffs mithilfe der AI Fabric-Technologie bietet und wie er sich von InfiniBand und reinem Ethernet-basierten RDMA unterscheidet.



    Distributed Computing wird in einer Vielzahl von Branchen eingesetzt. Hierbei handelt es sich um wissenschaftliche Forschung und technische Entwicklungen wie Gesichtserkennungs- oder Autopilot-Erkennungstools sowie die Industrie. Generell findet die Datenanalyse immer mehr Anwendung, und wir können mit Zuversicht sagen, dass sie in naher Zukunft nicht an Popularität verlieren wird. Tatsächlich erleben wir jetzt einen Übergang von der Ära des Cloud-Computing, in der die wichtigsten Faktoren Anwendungen und die Geschwindigkeit der Bereitstellung von Diensten waren, zur Ära der Datenmonetarisierung, einschließlich der Verwendung von Algorithmen für künstliche Intelligenz. Nach unseren internen Angaben (BerichtGIV 2025: Entfaltung des Industrieentwurfs einer intelligenten Welt ) Bis 2025 werden 86% der Unternehmen KI in ihrer Arbeit einsetzen. Viele von ihnen betrachten diesen Bereich als das wichtigste Instrument für die Modernisierung ihrer Aktivitäten und möglicherweise als grundlegendes Instrument für zukünftige Geschäftsentscheidungen. Und das bedeutet, dass jedes dieser Unternehmen eine Art Rohdatenverarbeitung benötigt - höchstwahrscheinlich über verteilte Cluster.

    Die Evolution der Architektur


    Mit der zunehmenden Popularität von verteiltem Computing nimmt das zwischen einzelnen Rechenzentrumsmaschinen ausgetauschte Verkehrsvolumen zu. Traditionell wird bei der Diskussion von Netzwerken auf das Wachstum des Datenverkehrs zwischen dem Rechenzentrum und den Endbenutzern im Internet geachtet, und es nimmt tatsächlich zu. Die Zunahme des horizontalen Verkehrs in verteilten Systemen übersteigt jedoch bei weitem alles, was Benutzer generieren. Laut Facebook verdoppelt sich der Datenverkehr zwischen den internen Systemen in weniger als einem Jahr.



    Um mit diesem Datenverkehr fertig zu werden, können Sie die Anzahl der Cluster erhöhen, dies ist jedoch nicht auf unbestimmte Zeit möglich. Um das Wachstum der Rechenlast in den Clustern vorherzusagen, ist es daher erforderlich, die Verarbeitungseffizienz zu erhöhen - zunächst, um Engpässe in diesen verteilten Netzwerken zu finden und zu beseitigen.

    Waren früher die Ressourcen jedes einzelnen dieser Systeme die „schwache Verbindung“ verteilter Systeme, während sich die Datenübertragungsnetze ständig weiterentwickelten und die Anforderungen überstiegen, ist heute die Netzwerkkommunikation die Hauptursache für das Problem. Der vertraute TCP / IP-Protokollstapel und die Baumstruktur entsprechen nicht mehr den zugewiesenen Aufgaben. Daher verlassen immer mehr Rechenzentren die zentrale und wechseln zu einer neuen CLOS-Architektur, die eine größere Bandbreite und eine bessere Cluster-Skalierbarkeit bietet, wie dies beispielsweise Facebook vor einigen Jahren getan hat.



    Gleichzeitig muss der Prozess auf einer anderen Ebene optimiert werden - auf der Ebene des Zusammenwirkens zweier getrennter Systeme. In diesem Artikel möchten wir darüber sprechen, welche Optimierungstools das Huawei Ai Fabric-Rechenzentrum bietet. Dies ist unsere proprietäre Technologie, die den Datenaustausch zwischen Knoten beschleunigt.

    Netzwerkänderungen


    Der wichtigste „Trick“ von Huawei Ai Fabric besteht darin, den Overhead beim Übertragen von Datenpaketen zwischen Systemen innerhalb des Clusters zu reduzieren, indem RDMA (Remote Direct Memory Access) implementiert wird - ein direkter Zugriff auf den Speicher von Systemen im Cluster.

    RDMA - ein Weg, um Übertragungsverzögerungen zu reduzieren


    RDMA ist keine neue Idee. Die Technologie ermöglicht einen direkten Datenaustausch zwischen dem Speicher und der Netzwerkschnittstelle, wodurch die Latenz verringert und unnötiges Kopieren von Daten in Puffer vermieden wird. Die Wurzeln von Compaq, Intel und Microsoft reichen bis in die 1990er Jahre zurück.

    Es gibt drei Arten von Verzögerungen beim Übertragen eines Pakets von einem System zu einem anderen:

    • aufgrund der Prozessorverarbeitung ist es beispielsweise erforderlich, Daten im Betriebssystem zu puffern und Prüfsummen zu berechnen;
    • aufgrund von Bussen und Datenübertragungskanälen (es ist technisch unmöglich, die Bandbreite signifikant zu erhöhen);
    • aufgrund von Netzwerkgeräten.



    Um die Verluste in dieser Kette zu verringern, wurde bereits in den 1990er Jahren vorgeschlagen, den direkten Zugriff auf den Speicher interagierender Systeme zu verwenden - ein abstraktes Modell der virtuellen Schnittstellenarchitektur. Die Hauptidee ist, dass Anwendungen, die auf zwei miteinander interagierenden Systemen ausgeführt werden, ihren lokalen Speicher vollständig ausfüllen und eine P2P-Verbindung für die Datenübertragung herstellen, ohne das Betriebssystem zu beeinträchtigen. Auf diese Weise können Paketübertragungsverzögerungen erheblich reduziert werden. Da das VIA-Modell nicht implizierte, dass die übertragenen Daten in Zwischenpuffern abgelegt wurden, wurden die für den Kopiervorgang erforderlichen Ressourcen gespart.



    In Bezug auf das abstrakte Modell ist VIA RDMA als Technologie einen Schritt weiter in Richtung einer optimalen Ressourcennutzung gegangen. Insbesondere wird nicht darauf gewartet, dass der Puffer gefüllt wird, um eine Verbindung herzustellen, und es werden Verbindungen zu mehreren Computern gleichzeitig zugelassen. Aufgrund dessen kann die Technologie Übertragungsverzögerungen von bis zu 1 ms reduzieren und den Prozessor entlasten.

    InfiniBand vs Ethernet


    Die beiden wichtigsten RDMA-Implementierungen auf dem Markt - das proprietäre InfiniBand-Transportprotokoll und das „reine“ Ethernet-basierte RDMA - sind leider nicht ohne Nachteile.

    Das InfiniBand-Transportprotokoll verfügt über einen integrierten Mechanismus zur Paketübermittlung (Schutz vor Datenverlust), wird jedoch von bestimmten Geräten unterstützt und ist nicht mit Ethernet kompatibel. Tatsächlich schließt die Verwendung dieses Protokolls das Rechenzentrum bei einem Ausrüstungslieferanten aus, was gewisse Risiken birgt und Schwierigkeiten in Bezug auf den Service verspricht (da InfiniBand einen geringen Marktanteil hat, wird es nicht so einfach sein, Spezialisten zu finden). Natürlich können Sie bei der Implementierung des Protokolls keine vorhandenen IP-Netzwerkgeräte verwenden. 

    Mit RDMA über Ethernet können Sie vorhandene Geräte im Netzwerk verwenden und Ethernet-Netzwerke unterstützen. Dadurch ist es einfacher, Service-Spezialisten zu finden. Im Vergleich zu Infiniband werden hierdurch die Betriebskosten der Infrastruktur erheblich gesenkt und ihre Bereitstellung vereinfacht.
    Der einzige schwerwiegende Nachteil, der die weit verbreitete Einführung von RDMA über Ethernet verhinderte, ist der fehlende Schutz vor Paketverlust, der die Bandbreite des gesamten Netzwerks begrenzt. Es müssen Mechanismen von Drittanbietern verwendet werden, um den Paketverlust zu verringern oder eine Überlastung des Netzwerks zu verhindern. Wir sind genau diesen Weg gegangen und haben unsere eigenen intelligenten Algorithmen entwickelt, um die Nachteile von RDMA gegenüber Ethernet zu kompensieren und gleichzeitig die Vorteile des neuen Tools - Huawei Ai Fabric - beizubehalten.

    Huawei AI Fabric - sein Weg


    AI Fabric implementiert RDMA über Ethernet, ergänzt durch einen eigenen intelligenten Algorithmus für das Netzwerküberlastungsmanagement, der für RDMA-Streams einen Paketverlust von null, eine hohe Netzwerkbandbreite und eine geringe Übertragungsverzögerung bietet. 

    Huawei Ai Fabric basiert auf offenen Standards und unterstützt eine Reihe verschiedener Geräte, wodurch der Implementierungsprozess optimiert wird. Einige zusätzliche Tools - Add-Ons über offene Standards, mit denen die Effizienz des Datenaustauschs gesteigert werden kann, auf die wir in späteren Veröffentlichungen eingehen werden - sind jedoch nur für Geräte verfügbar, die von Huawei hergestellt werden. Die CloudEngine-Switches, die die Lösung unterstützen, verfügen über einen integrierten Chip, der die Datenverkehrseigenschaften analysiert und die Netzwerkparameter dynamisch anpasst, wodurch der Switch-Puffer effizienter genutzt werden kann. Die gesammelten Merkmale werden auch verwendet, um zukünftige Verkehrsmuster vorherzusagen. 

    Für wen ist das nützlich?


    Mit Huawei Ai Fabric können Sie auf zwei Ebenen Gewinne erzielen.
    Auf der einen Seite ermöglicht die Lösung die Optimierung der Rechenzentrumsarchitektur, indem die Anzahl der Knoten reduziert wird (aufgrund einer optimaleren Ressourcennutzung) und eine konvergierte Umgebung ohne die herkömmliche Aufteilung in separate Teilnetze geschaffen wird, deren Wartung in Teilen schwierig und teuer ist. Mit dem Tool müssen Sie keine separaten Subnetze für jeden Diensttyp auf dem Domänencontroller auswählen (mit eigenen Netzwerkanforderungen). Sie können eine einzige Umgebung erstellen, die alle Dienste bereitstellt.



    Auf der anderen Seite können Sie mit AI Fabric die Geschwindigkeit von Distributed Computing erhöhen, insbesondere dort, wo Sie häufig auf den Speicher von Remote-Systemen zugreifen müssen. Zum Beispiel erfordert die Implementierung von AI in einem beliebigen Bereich eine Lernperiode des Algorithmus, die Millionen von Operationen umfassen kann, so dass der Verzögerungsgewinn bei jeder solchen Operation zu einer ernsthaften Beschleunigung des Prozesses führt.

    Die Einführung eines speziellen Tools wie Huawei Ai Fabric macht sich in einem Rechenzentrum mit sechs oder mehr Switches bemerkbar. Je größer das Rechenzentrum, desto höher der Gewinn. Aufgrund der optimalen Nutzung der Ressourcen bietet ein Cluster mit Ai Fabric in der gleichen Größenordnung eine höhere Leistung. Beispielsweise kann ein Cluster von 384 Knoten die Leistung eines "normalen" Clusters von 512 Knoten erreichen. Darüber hinaus unterliegt die Lösung keinen Einschränkungen hinsichtlich der Anzahl der physischen Switches innerhalb der Infrastruktur. Es kann Zehntausende geben (wenn Sie vergessen, dass Projekte normalerweise auf die Größe der Verwaltungsdomäne beschränkt sind).

    Jetzt auch beliebt: