Biostar Racing P1: von leicht bis schwer

Published on June 30, 2018

Biostar Racing P1: von leicht bis schwer

    In einem Miniaturcomputer wie dem Biostar Racing P1 zählt jeder Megahertz. Dies ist durch die Kompaktheit und den geringen Stromverbrauch bedingt. Der Intel Atom x5-Z8350 Prozessor ist hier an seiner Stelle. Und von ihm sind keine besonderen Leistungsnachweise zu erwarten. Insbesondere unter Berücksichtigung der Fehlereigenschaften des L1-Level-Cache.

    Trotzdem wird dieser "kein Stick mehr, sondern auch kein Laptop" seinen Konsumenten finden. Der Schlüssel dazu sind die vier Kerne der scheinbar unprätentiösen CPU. Lohnt es sich, sie festzunageln?

    Im vorherigen Artikel haben wir die Ergebnisse von Cache-Tests analysiert, die in einem Thread durchgeführt wurden. Dies vermittelt einen Eindruck von der „isolierten“ Leistung eines einzelnen Kernels. Was wird die integrale Bewertung eines Multi-Core-Prozessors sein? So setzte die Checkbox Verwenden parallelen Operationen in dem Dienstprogramm NCRB und führt eine ähnliche Serie von Messungen.

    Abbildung 1 . Auswahl eines Multithread-Plattform-Testszenarios mit NCRB-Dienstprogrammen

    Multithread-Test L1-Cache


    Im Intel Atom x5-Z8350-Prozessor ist der Cache der ersten Ebene eine private Ressource für jeden der vier Kerne. Dies bedeutet, dass bei der Verarbeitung eines Datenblocks, dessen Größe kleiner als L1 ist (in unserem Beispiel 24 Kilobyte), jeder Kern seinen eigenen Cache-Speicher verwendet, so gut wie keine Zugriffskonkurrenz besteht und wir entsprechend der Anzahl eine mehrfache Leistungssteigerung erwarten können Kerne. Die gebräuchliche Redewendung "aber du wirst nicht kämpfen" beschreibt dieses Messszenario ziemlich genau.

    Abbildung 2 . Diagramm der Lesegeschwindigkeit eines Datenblocks von seiner Größe für 4 gleichzeitig arbeitende CPU-Kerne; Nachbarschaft X = L1-Größe
    Gegenargumente können Faktoren sein, z. B. die Reduzierung der Obergrenze für dynamisches Übertakten bei der Implementierung eines bestimmten Energieverbrauchsszenarios und eines bestimmten thermischen Modus sowie die Begrenzung der vom Betriebssystem einer Anwendung in einer Multitasking-Umgebung zugewiesenen Prozessorzeit.

    Erinnern Sie sich daran, dass die Höchstleistung in einem Single-Threaded-Test (siehe „ Biostar Racing P1: kalter Auspuff “) etwas über 30 GBPS betrug. Mit 4 Kernen erhalten wir ein Ergebnis von ungefähr 107 GBPS, was dem theoretischen Wert von 120 GBPS ziemlich nahe kommt.

    Abbildung 3 . Eine grafische Darstellung der Schreibgeschwindigkeit eines Datenblocks in Bezug auf seine Größe für den gleichzeitigen Betrieb von 4 Prozessorkernen. Nachbarschaft X = Größe L1
    Bei der Untersuchung von L1 ist der linke Teil des Diagramms wichtig, der einem Block mit einer Größe von bis zu 24 KB entspricht. Hier sehen wir zwei Bruchteile der Leistung: einen schnellen Abschnitt für kleine Transaktionen (mehr als 105 GBPS) und einen langsamen Abschnitt für Daten, die größer als 6,4 KB sind, aber dennoch in das Auge des L1-Caches passen. Das erste ist klar: Wie beim Lesetest liegt es nahe am Wert von 120 GBPS, was für einen Kern das Vierfache ist. Warum ist der "Fehler" erneut beim Schreiben von Daten in L1? Dies kann nur vermutet werden.

    Wahrscheinlich haben die Intel-Ingenieure, die eine kostengünstige Version des Prozessors entworfen haben, den Fokus des Daten-Caches von L1 auf L2 verlagert. Das Zwischenspeichern von Anweisungen auf der ersten Ebene ist immer noch wirksam, und damit ist der Atom x5-Z8350 in Ordnung. Unter den Bedingungen einer Ressourcenknappheit überspringt der Prozessor die rücksichtslose Verwendung des statischen Speichers zur Bereitstellung von Datenströmen und verlässt sich mehr auf die Funktionen der zweiten Cache-Ebene.

    Hier bietet sich der allgemein akzeptierte Ansatz zur Erstellung eines Lastprofils für die Transaktionsverarbeitung in Echtzeit an.. Der allgemein akzeptierte Standard ist das Verhältnis von Lesen zu Schreiben im Verhältnis von 70% zu 30%. Ungefähr und das für den "schnellen" Datensatz zugewiesene Volume korreliert mit dem verbleibenden Speicherplatz im L1-Cache. Kann auf dieser Grundlage davon ausgegangen werden, dass Intel Atom-Prozessoren insbesondere auf die Verarbeitung von Streaming-Informationen zielt, beispielsweise von Medieninhalten?

    Es ist offensichtlich, dass die Einschränkung des Prozessors beim Schreib-Caching von Vorteil ist, wenn kein erneuter Zugriff auf die gerade aufgezeichneten Informationen erfolgt: Durch das Caching von "unnötigen" Daten wird der Speicher verstopft und "notwendige" Daten werden verdrängt. Das Schreiben in den Speicher, das beim Entpacken von Medieninhalten ausgeführt wird, ist auf den ersten Blick ein Vorgang, dessen Cache nicht rentabel ist. Das Ansprechen auf zuvor aufgezeichnete Daten bei fehlendem Cache geht dagegen verloren.

    L2-Testcache mit mehreren Threads


    Der Cache-Speicher der zweiten Ebene mit einem Gesamtvolumen von 2 Megabyte ist in zwei gleiche Teile von 1 MB aufgeteilt, von denen jeder eine Gruppe von zwei Kernen bedient. Dies bedeutet, dass in einem Multithread-Test jeder Kern 512 Kilobyte L2-Cache hat, während in einem Single-Thread-Test 1 Megabyte vorhanden sind. In der Auftragung der Blockverarbeitungsgeschwindigkeit in Abhängigkeit von ihrer Größe sollte daher ein Wendepunkt in der Nähe von X = 512 KB und nicht von X = 1024 KB erwartet werden, wie dies im Einzelflusstest der Fall war (siehe „ Biostar Racing P1: Kalter Auspuff “). Die berücksichtigten topologischen Merkmale des L2-Cache wirken sich auch auf die Skalierung der Zugriffsgeschwindigkeit aus.

    Abbildung 4 . Ein Diagramm der Geschwindigkeit des Lesens eines Datenblocks von seiner Größe zum gleichzeitigen Betreiben von 4 Prozessorkernen; Nachbarschaft X = Größe L2
    Leistung L2 kennzeichnet einen Abschnitt des Diagramms, der die doppelte Ungleichung 24 KB <X <512 KB erfüllt, was einem Datenblock entspricht, der nicht mehr in L1 passt, aber dennoch in L2 passt.

    Abbildung 5 . Eine grafische Darstellung der Schreibgeschwindigkeit eines Datenblocks in Bezug auf seine Größe für den gleichzeitigen Betrieb von 4 Prozessorkernen. Nachbarschaft X = Größe L2
    Beachten Sie, dass die Lesegeschwindigkeit von L2 in einem Singlethread-Test etwa 11,5 GBPS beträgt. Das Ergebnis der Skalierung beträgt ca. 39 GBPS. Sehr schön Die L2-Schreibgeschwindigkeit in einem Single-Thread-Test beträgt ungefähr 12 GBPS. Das Ergebnis der Skalierung beträgt ca. 31 GBPS.

    Anstelle eines Lebenslaufs


    Wir können ein gutes Niveau der Multi-Thread-Leistung der untersuchten Plattform angeben. Die Architektur des Intel Atom x5-Z8350-Prozessors, der den privaten L1-Cache und teilweise gemeinsam genutzten L2-Cache bestimmt, wird sich voraussichtlich auf die Benchmark-Ergebnisse auswirken.

    Abbildung 6 . Überwachen der CPU-Auslastung unter Windows 10: Der Zeitpunkt der Erhöhung der Kernauslastung auf 100 Prozent entspricht dem Zeitpunkt des Teststarts
    . Wenn Sie einen Multithread- Test starten, erhöht sich die Auslastung jedes der vier Prozessorkerne auf 100 Prozent. Was passiert mit der Temperatur und dem Stromverbrauch?

    Abbildung 7 . Überwachung von Temperatur und Stromverbrauch mit dem Dienstprogramm AIDA64
    Das Ergebnis wird mit dem bekannten Informations- und Diagnosedienstprogramm AIDA64 etwa 20 Minuten nach dem Start des Multithread-NCRB-Tests ermittelt.

    Wichtiger Hinweis


    Wenn Sie versuchen, die obigen Experimente auf Ihrem Computer zu wiederholen, müssen Sie die Daten sichern, die Wirksamkeit des Prozessorkühlsystems, die Zuverlässigkeit der Stromversorgung und den Vcore-Impulsregler überprüfen. Ein Stresstest kann ein übertaktetes oder instabiles System beschädigen. Und das Beste, um an der staatlichen Ausrüstung zu experimentieren.