Monster nach den Feiertagen: AMD Threadripper 2990WX 32-Core und 2950X 16-Core

Published on August 25, 2018

Monster nach den Feiertagen: AMD Threadripper 2990WX 32-Core und 2950X 16-Core

Ursprünglicher Autor: Ian Cutress
  • Übersetzung
Teil 1Teil 2Teil 3Teil 4

Neuer AMD Product Stack



Königreich für Höchstleistungen. Bei der Datenverarbeitung wird die Bandbreite zum Schlüsselfaktor: Denn je mehr Zeit der Nutzer hat, desto mehr Projekte werden abgeschlossen bzw. die Anzahl der Verträge steigt. Benutzer von Workstations kalkulieren häufig Systemengpässe und werfen gerne Ressourcen zur Problemlösung auf, sei es Kernel, Arbeitsspeicher oder Grafikbeschleunigung. Der Threadripper 2 der zweiten Generation, bekannt als Threadripper 2, geht über die alten Grenzen des Verhältnisses von Kernen und Preis hinaus: 2990WX bietet 32 ​​Kerne und 64 Gewinde für nur 1.799 US-Dollar. Wir haben beide überprüft.

AMD Threadripper 2990WX 32-Core und 2950X 16-Core Test


Seit AMD seine erste Ryzen-Generation mit acht Kernen gegen vier Intel-Kernen herausgebracht hat, wurde lange darüber diskutiert, wie viele Kerne es sinnvoll machen, zu sein. Die Antwort auf diese Frage hängt ganz von der Arbeitsbelastung ab: Wie viele verschiedene Tools der Benutzer gleichzeitig verwenden möchte. Da der Workstation-Markt ein breites Spektrum von „heterogenen“ Benutzern abdeckt (und trotz des Erfordernisses nach Geschwindigkeit), ist es einfach unrealistisch, eine einzige, für alle geeignete Option bereitzustellen.

Die erste Generation von AMDs Threadripper, die im Jahr 2017 herauskam, brachte 16-Kern-Prozessoren auf den Markt. Bisher nur auf Server-Plattformen verfügbar, wurden die neuen Komponenten im Vergleich zu 10-Core-Angeboten als sehr wettbewerbsfähig eingestuft. AMD nutzte seine Serverplattform mit kleinen Verbesserungen, um Konkurrenten und deren Marktführer Halo anzugreifen.

Intels eigene Workstation-Produkte, die zuvor als E5-2687W bezeichnet wurden und auf Two-Socket-Servern basierten, waren ganz einfach Server. Nach der Einführung der neuesten Hochleistungs-Desktop-Plattform mit bis zu 18 Kernen stellte Intel die Xeon W-Serie vor und ersetzte die E5-W-Komponenten der vorherigen Generation. Bis zu 18 Kerne für ca. 2500 US-Dollar, obwohl für ihre Verwendung spezielle Chipsätze und Motherboards erforderlich waren.



AMD bringt heute offiziell den Threadripper der zweiten Generation auf den Markt. Neue Prozessoren drängen äußerst aggressiv auf den Markt: Durch das Angebot einer verbesserten Zen + -Mikroarchitektur können wir die IPC-Leistung um 3% steigern. Es wird ein 12 nm technisches Verfahren verwendet, das wiederum die Frequenz erhöht und den Stromverbrauch senkt. AMD greift den Markt mit einer Reihe von Kernen an! Die 12- und 16-Kern-Prozessoren werden nicht nur bei höheren Frequenzen durch neue Zen + -Modelle ersetzt, das Unternehmen bietet auch 24 und 32 Kerne in einem Prozessor im Wert von bis zu 1.799 US-Dollar an. 32 Kerne für 1.799 US-Dollar im Vergleich zu 18 Kernen für fast 2.500 US-Dollar - ein schwerer Schlag für die Konkurrenz, nicht wahr?

Wie AMD 32 Kerne unterstützt


Um als 32-Core-Prozessor bezeichnet zu werden, verwendet AMDs Server-Prozessorlinie der ersten Generation, EPYC, vier Silizium-Arrays mit jeweils acht Kernen. Diese Komponenten verfügen über acht Speicherkanäle und 128 PCIe 3.0-Lanes für verschiedene Zwecke. Mit der Veröffentlichung der ersten Generation von Threadripper trennte AMD zwei dieser Silizium-Arrays, sodass nur 16 Kerne, vier Speicherkanäle und 60 PCIe-Lanes zur Verfügung standen. Das Endprodukt richtete sich an Endverbraucher.

Um Benutzern 32 Kerne zur Verfügung zu stellen, verwendet AMD dasselbe EPYC-Silizium mit 32 Kernen, aktualisiert es jedoch auf Zen + bei 12 nm für höhere Frequenzen und geringere Leistung. Aus Gründen der Kompatibilität mit der ersten Generation wurde die Kompatibilität geringfügig verringert: vier Speicherkanäle und 60 PCIe-Lanes. AMD positioniert das Produkt zwar als aktualisierten Prozessor der ersten Generation mit einer großen Anzahl von Kernen und nicht als abgespeckte Serverversion. Dieser Ansatz lässt sich leicht durch Produktsegmentierung erklären. Diese Taktik haben beide Unternehmen bereits genutzt, um eine erweiterte Produktlinie zu vermarkten.



Infolgedessen besteht eine der Möglichkeiten, die neuen 32-Kern- und 24-Kern-Chips der zweiten Generation zu erkennen, aus zwei Modulen: Die Hälfte des Chips hat Zugriff auf vollständige Ressourcen, ähnlich wie das Produkt der ersten Generation, während die andere Hälfte des Chips dieselben Rechenressourcen dupliziert, jedoch eine zusätzliche Speicherverzögerung aufweist und PCIe im Vergleich zur ersten Hälfte. AMD ist die beste Lösung für alle Benutzer, die sich mit Rechenleistung und nicht mit Arbeitsspeicher oder PCIe auseinandersetzen müssen.

In unserem Test werden wir feststellen, dass diese bimodale Konstruktion einen signifikanten Einfluss auf die Leistung hat, sowohl gut als auch schlecht. Dies hängt wiederum von der Art der Arbeitsbelastung ab.

Neuer AMD-Stack


Offiziell kommt AMD mit vier Threadripper-Prozessoren der zweiten Generation auf den Markt. Zwei von ihnen werden Produkte der ersten Generation direkt ersetzen: der 16-Kern-2950X ersetzt den 16-Kern-1950X und der 12-Kern-2920X - der 12-Kern-1920X. Zwei neue Prozessoren bestehen nicht aus zwei Modulen, nur zwei der vier Siliziumkristalle auf dem Gehäuse sind aktiv (16-Kern-Konfiguration sieht aus wie 8 + 0 + 8 + 0, 12-Kern wie 6 + 0 + 6 + 0). Am unteren Ende des Stapels befindet sich die erste Generation des 1900X mit 8 Kernen (4 + 0 + 4 + 0), die 4-Kanal-Speicher und 60 PCIe-Lanes bietet.



Zwei neue Prozessoren sind mit dem 32-Kern-Prozessor 2990WX und dem 24-Kern-Prozessor 2970WX vertreten. Sie umfassen vier Kerne pro Komplex (8 + 8 + 8 + 8) und drei Kerne pro Komplex (6 + 6 + 6 + 6) und haben die bereits beschriebene Zwei-Modul-Natur von Speicher und PCIe. Das Branding ändert sich, jetzt ist es WX, vermutlich für Workstation eXtreme. Damit gehört das Produkt zur selben Marketinglinie wie die Radeon Pro WX-Familie.



Der AMD Ryzen Threadripper 2990WX ist ein neues Superprodukt mit 32 Kernen und 64 Gewinden, einer Grundfrequenz von 3,0 GHz und einer Spitzenfrequenz der Turboaufladung von 4,2 GHz. Die Ausfallfrequenz dieses Prozessors beträgt 2,0 GHz. Beim Testen sahen wir 2,0 GHz auf jedem Kern ohne Last.

Ein weiteres Produkt der WX-Serie ist 2970WX: Es deaktiviert einen Kern pro Komplex und bietet insgesamt 24 Kerne. Mit den gleichen Frequenzen wie der 2990WX und mit den gleichen TDP-, PCIe-Leitungen und der gleichen Speicherunterstützung wird dieser Prozessor im Oktober zu einem Preis von 1.299 US-Dollar auf den Markt gebracht. als der große 32-Kern-Bruder.



Bei der X-Serie handelt es sich beim TR 2950X um einen 16-Kern-Ersatz. Der Prozessor nutzt die schnellen Frequenzen des neuen 12-nm-Prozesses voll aus: Die Grundfrequenz von 3,5 GHz und der Turbo von 4,4 GHz bringen das Produkt der vorherigen Generation auf die Knie. Tatsächlich sieht der 2950X wie ein gut verteilter AMD Ryzen aus. Ein beachtlicher Vorteil zu einem reduzierten Preis: Statt 999 US-Dollar können Benutzer jetzt einen 16-Core-Prozessor für 899 US-Dollar erwerben. 2950X wird Ende des Monats, am 31. August, veröffentlicht.

Schließlich erwähnen wir den 2920X, den Ersatz für den 1920X, und bieten die gleichen Verbesserungen wie die anderen Linienprozessoren. Wie beim 2950X sind die Frequenzen gegenüber dem Vorjahr deutlich erhöht, die Grundfrequenz liegt bei 3,5 GHz und der Turbo bei 4,3 GHz. All diese Schönheit in einem Paket mit einem thermischen Design von 180 Watt. 2920X wird im Oktober für einen Verkaufspreis von 649 US-Dollar veröffentlicht.

Nucleolus zu Nucleolus oder Designkompromisse


AMDs Ansatz für diese großen Prozessoren besteht darin, eine kleine Wiederholungseinheit wie einen 4-Kern-Komplex oder einen 8-Kern-Siliziumkristall (der zwei Komplexe enthält) zu verwenden und mehrere in einem einzigen Prozessor unterzubringen. "Am Ausgang" die erforderliche Anzahl an Kernen und Threads. Zu den Vorteilen zählen viele replizierte Blöcke wie Speicherkanäle und PCIe-Lanes. Der Nachteil ist, wie diese Kerne und Speicher miteinander kommunizieren sollten.

In der Standardausführung mit monolithischem (einzelnem) Silizium befindet sich jeder Kern auf dem internen Interkonnektor mit einem Speichercontroller und kann mit geringer Latenz in den Hauptspeicher gelangen. Die Wechselrate zwischen den Kernen und dem Speichercontroller ist normalerweise recht niedrig, und der Routing-Mechanismus (Ring oder Mesh) kann Durchsatz, Latenz und Skalierbarkeit bestimmen. Die endgültige Leistung ist normalerweise ein Kompromiss zwischen den aufgeführten Faktoren.

Bei der Konstruktion mit mehreren Kristallen, bei der jeder Stempel nicht nur lokal auf ein bestimmtes Gedächtnis, sondern auch über einen Sprung auf ein anderes Gedächtnis zugreifen kann, stößt man auf eine ungleichmäßige Speicherarchitektur. Es ist als NUMA-Design bekannt. In einem solchen Fall kann die Leistung durch diese abnormale Speicherverzögerung eingeschränkt werden. Daher muss die Software NUMA-fähig sein, um sowohl die Latenz als auch den Durchsatz zu optimieren. Vergessen Sie nicht, dass die zusätzlichen Übergänge zwischen der Matrix und den Speichercontrollern eine gewisse Rechenleistung benötigen.

Dies ist uns bereits in der ersten Generation von Threadripper begegnet (das Vorhandensein von zwei aktiven Siliziummatrizen im Paket). Wenn sich die erforderlichen Daten im Speicher befanden, der sich lokal auf einem anderen Silizium befand, war ein Sprung erforderlich. Mit dem Threadripper der zweiten Generation wird dieser Sprung wesentlich schwieriger.



Auf der linken Seite befindet sich das 1950X / 2950X-Design mit zwei aktiven Siliziummatrizen. Jede Matrix hat direkten Zugriff auf 32 PCIe-Lanes und zwei Speicherkanäle, wodurch sich 64/4 PCIe-Lanes und vier Speicherkanäle ergeben. Die Cores, die mit Speicher / PCIe arbeiten und mit ihrer Matrix verbunden sind, sind schneller als die Verwendung von Ressourcen, die mit einer anderen Matrix verbunden sind.

Bei 2990WX und 2970WX sind zwei "inaktive" Silikone enthalten, die jedoch keinen direkten Speicherzugriff oder PCIe haben. Für diese Kerne gibt es keinen "lokalen" Speicher oder eine Verbindung: Jeder Zugriff auf den Hauptspeicher erfordert einen zusätzlichen Übergang. Darüber hinaus gibt es zusätzliche Verbindungen von der Matrix zur Matrix, die auf AMD Infinity Fabric (IF) basieren und Energie verbrauchen.

Der Grund, warum diese zusätzlichen Kerne keinen direkten Zugriff haben, liegt in der Plattform: Die TR4-Plattform für Threadripper-Prozessoren verwendet einen vierkanaligen Speicher und 60 PCIe-Steckplätze. Wenn die anderen beiden Matrizen lokalen Speicher und PCIe enthalten, sind neue Motherboards und Speichergeräte erforderlich.

Benutzer fragen sich möglicherweise, ob wir das Design so ändern können, dass jeder Siliziumkristall einen Speicherkanal und einen Satz von 16 PCIe-Bändern hat. Es ist wahrscheinlich. Die Plattform ist jedoch etwas eingeschränkt durch die Steuerung der Pins und Tracks auf den Sockeln und Motherboards. Die Firmware erwartet für jedes Silizium zwei Speicherkanäle, außerdem gibt es Gründe für die Stromversorgung. Die aktuellen Motherboards auf dem Markt sind einfach nicht so konfiguriert. Diese Tatsache wird sich ernsthaft auf die Leistung auswirken. Denken Sie also daran, wenn wir mit den Tests beginnen.
Es ist erwähnenswert, dass diese Threadripper- und AMD-Serverplattform der zweiten Generation, EPYC, Brüder sind. Beide haben die gleichen Prozessor- und Socket-Layouts, aber EPYC umfasst alle Speicherkanäle (acht) und alle PCIe-Lanes (128):



Und wenn Threadripper 2 aufgrund des Vorhandenseins mehrerer Kerne ohne direkten Speicherzugriff an Leistung verliert, verfügt EPYC über direkten Speicher. Der Prozessor benötigt mehr Strom, bietet jedoch eine einheitlichere Konfiguration des Datenverkehrs vom Kern zum Netzwerk.

Wenn Sie zu Threadripper 2 zurückkehren, ist es wichtig zu verstehen, wie der Chip startet. AMD bestätigte, dass der Scheduler zum größten Teil zuerst die direkt mit dem Speicher verbundenen Kernel lädt, bevor er andere Kerne verwendet. Es stellt sich heraus, dass jeder Kern ein vorrangiges „Gewicht“ hat, das auf Leistung, Wärmeleistung und Leistung basiert. Vorrangig diejenigen, die dem Speicher am nächsten sind. Die Priorität der Kerne nimmt aufgrund der thermischen Ineffizienz ab, wenn sie gefüllt werden.

Präzisionsschub 2


Die genauen Turbo-Timings für jeden neuen Prozessor werden nun durch die AMD-Frequenzskalierungsfunktion mit Precision Boost 2 bestimmt. Diese Funktion, die wir im Ryzen 7 2700X-Test ausführlich erörtert haben, basiert auf der verfügbaren Leistung zur Bestimmung der Frequenz und nicht auf einer diskreten Referenztabelle mit Spannungen und Frequenzen basierend auf der Last. Abhängig von den anfänglichen Fähigkeiten des Systems werden Frequenz und Spannung dynamisch verschoben, um zu jedem Zeitpunkt der Prozessorlast mehr potenzielle Leistung zur Verfügung zu haben.



Der Prozessor kann mehr Strom verbrauchen, als es die feste Nachschlagetabelle zulässt. Diese sollte für alle Prozessoren dieses Modells geeignet sein.

Precision Boost 2 arbeitet mit dem XFR2 (eXtreme Frequency Range) zusammen, der auf den verfügbaren Temperaturbestand reagiert. Wenn ein guter Kühler ein zusätzliches Wärmebudget bietet, kann der Prozessor vor Erreichen des Wärmelimits mehr Leistung verbrauchen und eine zusätzliche Frequenz erhalten. AMD behauptet, dass ein guter Kühler in einer kühlen Umgebung die Verarbeitungsleistung dank der Verwendung der XFR2-Technologie in einigen Tests um mehr als 10% steigern kann. AMD war schwierig, dieses "Plus" zu demonstrieren, indem es den Threadripper 2 mitten in einer heißen Phase in Europa laufen ließ. Europa ist dafür bekannt, dass Klimaanlagen auf der ganzen Welt ignoriert werden. Wenn die Umgebungstemperatur 30 ° C übersteigt, sind die Produktivitätssteigerungen begrenzt. Eine skandinavische Überprüfung kann bessere Ergebnisse als eine Überprüfung aus den Tropen zeigen.

Dies erschwert letztendlich das Testen des Threadrippers 2. Bei der Turbotabelle ist die Leistung eng an die Eigenschaften der einzelnen Siliziumelemente gebunden, sodass der Stromverbrauch eine einzige Abstufung aufweist. Bei PB2 und XF2 funktionieren keine zwei Prozessoren auf die gleiche Weise.

Zum Glück haben wir die meisten Tests in einem klimatisierten Hotel durchgeführt, dank des Intel Data-Centric Innovation Summit, der eine Woche vor der Einführung der Prozessoren stattfand.

Präzisions-Boost-Overdrive


Die neuen Prozessoren unterstützen die Precision Boost Overdrive-Funktion, die wichtige Bereiche wie Leistung, thermischen Auslegungsstrom und elektrischen Auslegungsstrom abdeckt. Wenn einer dieser drei Bereiche ungenutztes Potenzial "aufzeigt", versucht das System, sowohl die Frequenz als auch die Spannung zu erhöhen, um die Leistung zu verbessern. PBO ist eine Kombination aus „Standard“ -Übertaktung, die alle Kerne gleichzeitig beschleunigt und die Möglichkeit bietet, die Frequenz auf einem Kern zu erhöhen, um Leistungssteigerungen bei durchschnittlicher Auslastung zu erzielen. Mit PBO können Sie Energie sparen, wenn der Prozessor im Leerlauf ist und mit Standardleistung arbeitet. Precision Boost Overdrive ist beim Ryzen Master aktiviert.

Diese "drei Schlüsselbereiche" werden von AMD wie folgt definiert:

  • Package (CPU) Power oder PPT - Der maximal zulässige Stromverbrauch eines Sockels hängt von der Stromversorgung des Sockels ab.
  • Thermal Design Current oder TDC - der maximale Strom, der vom Spannungsregler der Hauptplatine nach Erreichen einer stabilen Zustandstemperatur geliefert wird;
  • Elektrischer Auslegungsstrom oder EDC ist der maximale Strom, der vom Spannungsregler der Hauptplatine im Spitzenzustand geliefert wird.

Durch die Erweiterung dieser Grenzen erweitert PBO die Fähigkeiten von PB2, was es wiederum ermöglicht, das System so effizient wie möglich zu laden.



Storemi


Zusammen mit den neuen Ryzen Threadripper 2-Prozessoren können Benutzer auf die StoreMI-Softwarelösung zugreifen. Sie können einen benutzerdefinierten mehrstufigen Speicher erstellen, indem Sie DRAM, SSD und HDD in einem einzigen Speicherbereich verbinden. Die Software-Implementierung weist Daten dynamisch zu, indem bis zu 2 GB DRAM, bis zu 256 GB SSD (NVMe oder SATA) und eine rotierende Festplatte verwendet werden. Dieser Ansatz bietet die besten Lese- und Schreibfunktionen bei unzureichendem Speicherplatz auf dem Hochgeschwindigkeitsspeichergerät.



Ursprünglich bot AMD diese Software als Ergänzung zur Ryzen APU-Plattform für 20 US-Dollar an und später kostenlos (bis zu 256 GB SSD) für Benutzer von Prozessoren der Ryzen 2000-Serie. Das Angebot erstreckt sich nun auf Threadripper. AMD zeigt, wie Software die Download-Zeit im Idealfall um 90% beschleunigt.

Füttere mich: Infinity Fabric braucht mehr Power


Als das Verschieben von Daten zwischen Kernen und Speichercontrollern von einer Ringtopologie in ein Mesh oder Chiplet geändert wurde, wurde die Kommunikation zwischen den Kernen erheblich schwieriger. Ab diesem Zeitpunkt sollte jeder Kern oder seine Umgebung als Router fungieren und den besten Pfad für die Daten bestimmen, wenn mehrere "Hops" erforderlich sind, um das beabsichtigte Ziel zu erreichen. Wie wir beim Intel MoDe-X-Netz beim Ausführen von Skylake-X gesehen haben, müssen Sie gleichzeitig der Konkurrenz ausweichen, um die Leistung zu steigern und die Länge der Leiter zu verringern, um die Leistung zu verringern. Es stellt sich heraus, dass in solchen Systemen die Technologie der Kommunikation zwischen den Kernen viel Energie verbraucht, manchmal mehr als die Kerne selbst.

Um die Leistung des Chips zu beschreiben, haben alle Consumer-Prozessoren eine nominelle "TDP" - oder thermische Entwurfsleistung. Intel und AMD messen diesen Wert je nach Workload und Temperatur unterschiedlich. Technisch gesehen ist TDP die Wärmeenergie, die der Kühler abführen muss, wenn der Prozessor voll ausgelastet ist (und wird normalerweise anhand der Basisfrequenz und nicht anhand der Turbofrequenz aller Kerne bestimmt). Der tatsächliche Energieverbrauch kann höher sein, abhängig von der Verlustleistung oder der Wärmeabgabe durch die Platine. In den meisten Situationen werden TDP und Energieverbrauch jedoch im Allgemeinen als gleich angesehen.

Dies bedeutet, dass die TDP-Werte moderner Prozessoren wie 65 W, 95 W, 105 W, 140 W, 180 W und jetzt 250 W in etwa den höchsten Energieverbrauch anzeigen sollten. Allerdings kann nicht all diese Energie die Frequenz in den Kernen weiter erhöhen. Ein Teil davon wird in Speichercontrollern, in E / A und in integrierten Grafiken (sofern auf dem Chip vorhanden) verwendet. Es stellt sich heraus, dass internukleare Verbindungen ein vollwertiger Teilnehmer am Stromverbrauch werden. Wir wollen wissen, wie viel sie verbrauchen.

Um die Skala zu verstehen, wollen wir mit etwas beginnen, das für die meisten Benutzer einfach und bekannt ist. Die neuen Intel Coffee Lake Prozessoren wie der Core i7-8700K verwenden das sogenannte Ringbus-Design. Diese Prozessoren verwenden einen Ring, um jeden der Kerne und den Speichercontroller zu verbinden. Wenn Sie Daten verschieben müssen, fallen sie in den Ring und bewegen sich, bis sie an ihrem Ziel ankommen. Das System internuklearer Wechselwirkungen wird historisch als "Uncore" bezeichnet und kann mit Kernen interagieren, die bei Bedarf mit unterschiedlichen Frequenzen und Skalierungsleistungen arbeiten. Die Energieverteilung ist wie folgt:



Trotz der 95-W-TDP verbraucht dieser Prozessor bei Grundfrequenzen bei Volllast etwa 125 W, was viel mehr ist als seine TDP (auch bei der Grundfrequenz bestimmt). Uns interessiert noch etwas anderes: das Verhältnis von Uncore-Verbrauch zu Gesamtleistung. Bei einer kleinen Last verbraucht uncore nur 4% der Gesamtleistung, aber beim Laden zusätzlicher Kerne steigt der Stromverbrauch auf 7-9%. Der Einfachheit halber nennen wir dies "maximal 10%".

Kommen wir nun zu etwas Größerem: den Intel Skylake-X-Prozessoren. In diesem Design verwendet Intel seine neue Mesh-Architektur (Mesh), ähnlich wie bei MoDe-X. Darin hat jede Untergruppe von Prozessorelementen einen kleinen Router, der ein Datenpaket nach Bedarf an benachbarte Kerne oder an sich selbst weiterleiten kann.



Durch dieses Design kann der Prozessor skaliert werden, da die Ringsysteme eine zusätzliche Latenz haben, wenn sie 14 Kerne erreichen. Obwohl die Mesh-Architektur mit einer geringeren Latenz arbeitet als die zuvor von Intel verwendeten Ringsysteme, verbraucht sie viel mehr Energie.



In diesem Diagramm sehen wir, dass die Leistung von Uncore in der Mesh-Architektur bereits 20% der Gesamtleistung des Chips beträgt und sich beim Laden zusätzlicher Kerne auf 25-30% erhöht. Infolgedessen wird ein Viertel bis ein Drittel der Leistung pro Chip für die Kommunikation zwischen den Kernen und dem Speicher verwendet.

Bei AMD ist die Situation anders. In einem Vierkernkomplex ist die Verbindung zwischen den Kernen relativ einfach und verwendet eine zentralisierte Kreuzschiene. Wenn es um mehrere Kerne geht, ist die Kommunikationsmethode einfach und unkompliziert. Wenn jedoch mindestens zwei Kernkomplexe auf demselben Silizium- oder Speichercontroller verwendet werden, wird die Zusammenschaltung wirksam. Diese Topologie ist kein Ring und basiert auf der internen Version von Infinity Fabric (IF).



IF ist für die Skalierung über Kerne, Matrizen und Sockets ausgelegt. Am Beispiel des Ryzen 7 2700X, der eine TDP von 105 Watt aufweist, können wir herausfinden, was er in der Einheitenmatrix bewirkt.



Das AMD-Produkt fand zwei sehr interessante Momente. Erstens, wenn die Kerne leicht geladen sind, beträgt der IF-Verbrauch 43% der gesamten Prozessorleistung. Dies steht im Vergleich zu 4% für i7-8700K und 19% für i9-7980XE. Bei einem vollständig geladenen Chip werden diese 43% jedoch auf etwa 25% reduziert.

Zweitens ist es sehr wichtig, dass sich die ZF-Leistung beim Skalieren der Kerne kaum ändert und von ~ 17,6 W auf ~ 25,7 W ansteigt. Bei einem leistungsstarken Intel-Chip haben wir festgestellt, dass er in einigen Fällen von ~ 13,8 Watt auf über 40 Watt angestiegen ist.

Ryzen Threadripper 2950X ist eine aktualisierte 16-Kern-Version des Threadrippers, die eine einzige Verbindung zwischen den beiden Silizium-Arrays verwendet, um Daten zwischen den Kernkomplexen auszutauschen.



In der folgenden Abbildung steht die rote Linie für den Verbrauch von IF. In diesem Fall umfasst der Uncore-Stromverbrauch die intranukleäre Verbindung + die internukleäre Verbindung.



Der prozentuale Verbrauch von Infinity Fabric beträgt 59% des gesamten Stromverbrauchs des Chips, wenn nur zwei Streams geladen werden. Obwohl sich beide Streams im selben Core (und im selben CCX) befinden, muss der CCX Zugriff auf den gesamten Systemspeicher haben, daher sind die Die-to-Die-Verbindung und die Intra-Silicon-Verbindung aktiviert.

Beim Laden zusätzlicher Kerne steigt die von der ZF verbrauchte Leistung jedoch kaum von 34 W auf 43 W, wodurch sich der prozentuale Verbrauch allmählich auf etwa 25% der Gesamtleistung des Chips verringert, was 2700X entspricht.

Jetzt müssen wir 2990WX betrachten. Da sich alle vier Siliziummatrizen auf dem Chip befinden und jede Schicht eine IF-Inter-Network-Verbindung benötigt, werden sechs IF-Leitungen benötigt:



In der Abbildung unten ist sie rötlich. Es ist erwähnenswert, dass zwei der vier Siliziummatrizen keinen lokalen DRAM aufweisen. Theoretisch sollte AMD in der Lage sein, diese IF-Verbindungen zu deaktivieren, wenn nur wenige Kerne verwendet werden. Schließlich verursachen sie durch unnötige Übergänge eine zusätzliche Latenz, wenn andere ZF-Verbindungen überlastet sind. Aber in der Praxis sehen wir etwas Seltsames.



Betrachten Sie zunächst die Leistung bei geringer Last. Hier verbraucht Infinity Fabric 56,1 Watt bei einer Gesamtleistungsaufnahme von 76,7 Watt, was 73% der Prozessorleistung entspricht. Wenn eine Verbindung mit 2950 W nur ​​34 W verbraucht, sind hier offensichtlich zusätzliche ZF-Leitungen enthalten. Vielleicht liegen hier zusätzliche Energieverwaltungsoptionen.

Wenn Sie den Graphen untersuchen, werden Sie feststellen, dass unser Beispiel 2990WX die geschätzte TDP von 250 W nie erreichte und die 180-W-Marke am Peak kaum überschritt. Wir wissen nicht, warum das passiert ist. Mit zunehmender Belastung der Kerne sinkt der Anteil der verbrauchten ZF-Leistung allmählich auf 36% und liegt je nach Arbeitslast zwischen 35% und 40%. Dies ist natürlich mehr als 25% bei 2700X und 2950X.

In Anbetracht dessen, dass dies unsere erste Überprüfung unter Beteiligung von EPYC 7601 ist, wie wäre es, den zweiten Hinweis in diesem Prozessor zu finden? Basierend auf den bereits veralteten Zen-Kernen der ersten Generation verfügt EPYC über zusätzliche Speichercontroller und E / A, die ebenfalls mit Strom versorgt werden müssen. Sie fallen alle in die Kategorie des Uncore-Stromverbrauchs.



Wenn wir den Energieverbrauch in Zahlen wie 2990WX betrachten und alle Kerne laden, stellen wir einige unterbrochene Diagramme fest. Die Anteile des Uncore-Verbrauchs schwanken.



Mit einer geringen Last von 74,1 W verbraucht IF 66,2 W und ist umwerfende 89%! Wenn neue Kerne aktiviert werden, steigt die Rate von 66,2 W an einigen Punkten auf 90 W an. Der Kern bekommt kaum 90 Watt von 180 Watt TDP!

Dies führt zu einer interessanten Schlussfolgerung: Wenn wir die Vorzüge eines Kerns rein akademisch mit denen eines anderen Kerns vergleichen, berücksichtigen Sie dann den Beitrag der Uncore-Kraft? Zweifellos für echte Analysen, aber für rein akademische? Lassen Sie mich die Prophezeiung sagen:

Nach dem Kampf um die Anzahl der Kerne wird der nächste Kampf um die Vernetzung stattfinden. Geringer Verbrauch, Skalierbarkeit und hohe Leistung: Die Skalierung des Prozessorknotens ist nichts, wenn Uncore 90% der gesamten Chipleistung ausmacht.

Vielen Dank für Ihren Aufenthalt bei uns. Mögen Sie unsere Artikel? Möchten Sie weitere interessante Materialien sehen? Unterstützen Sie uns, indem Sie eine Bestellung aufgeben oder Ihren Freunden einen Rabatt von 30% für die Benutzer von Habr für ein einzigartiges Analogon der von uns für Sie erfundenen Einstiegsserver empfehlen : Die ganze Wahrheit über VPS (KVM) E5-2650 v4 (6 Kerne) 10 GB DDR4 240 GB SSD 1 GBit / s ab 20 US-Dollar oder wie man den Server freigibt? (Optionen sind mit RAID1 und RAID10, bis zu 24 Kernen und bis zu 40 GB DDR4 verfügbar).

3 Monate kostenlos, wenn Sie ein halbes Jahr lang für das neue Dell R630 zahlen - 2 x Intel Deca-Core Xeon E5-2630 v4 / 128 GB DDR4 / 4 x 1 TB Festplatte oder 2 x 240 GB SSD / 1 Gbit / s 10 TB - ab 99,33 USD pro Monat , nur bis Ende August kann hier sein .

Dell R730xd 2 mal günstiger? Nur wir haben 2 x Intel Dodeca-Core Xeon E5-2650v4 128 GB DDR4 6 x 480 GB SSD 1 Gbit / s 100 TV ab 249 US-Dollar in den Niederlanden und den USA! Lesen Sie mehr darüber, wie Sie ein Infrastrukturgebäude bauen. Klasse C mit Servern Dell R730xd E5-2650 v4 im Wert von 9000 Euro für einen Cent?