Wie Verizon und BGP Optimizer einen großen Offline-Erfolg erzielten

Ursprünglicher Autor: Tom Strickx
  • Übersetzung


Ein großes Routenleck hat große Internetsektoren, einschließlich Cloudflare, betroffen


Was ist passiert?


Am 24. Juni um 10:30 UTC brach das Internet zusammen: Eine kleine Firma im Norden Pennsylvaniens strömte auf vielen Strecken, die durch einen großen Anbieter, Verizon (AS701), führten, einen Verkehrsstrom ein. Mit dem gleichen Erfolg konnte der Navigator einen Strom von Autos von einer mehrspurigen Autobahn auf eine schmale Straße schicken . Infolgedessen haben viele Cloudflare-Websites und viele andere Anbieter Zugriffsprobleme. Dies hätte überhaupt nicht passieren dürfen, da Verizon diese Routen nicht an das gesamte Internet senden sollte. Um herauszufinden, wie es passiert ist, lesen Sie weiter.


Wir haben bereits früher über solche Vorfälle geschrieben , sie passieren von Zeit zu Zeit, aber diesmal spürten wir die Konsequenzen auf der ganzen Welt. Das Problem wurde durch Noctions BGP-Optimierer verschärft . Es hat eine Funktion, die die empfangenen IP-Präfixe in kleinere und spezifischere aufteilt. Beispielsweise wurde unsere IPv4-Route 104.20.0.0/20 in 104.20.0.0/21 und 104.20.8.0/21 unterteilt. Als ob der Wegweiser von Pennsylvania durch zwei andere ersetzt worden wäre: Pittsburgh, PA und Philadelphia, PA. Durch die Aufteilung großer IP-Blöcke in kleine verwaltet das Netzwerk den Datenverkehr in sich selbst. Diese Trennung sollte jedoch nicht öffentlich verfügbar sein. Ansonsten entstehen solche Probleme.


Um zu erklären, was als nächstes geschah, wollen wir zunächst die Funktionsweise des Internets in Erinnerung rufen. Tatsächlich ist das Internet ein Netzwerk, das aus Netzwerken besteht, die als autonome Systeme bezeichnet werden. Jedes autonome System hat eine eigene eindeutige Kennung. Alle Netzwerke sind über das Border Gateway Protocol (BGP) miteinander verbunden. BGP verbindet diese Netzwerke und bildet eine Internetstruktur, in der der Datenverkehr beispielsweise von Ihrem Internetprovider zu einer beliebten Website in einem anderen Teil der Welt geleitet wird.


Über BGP tauschen Netzwerke Informationen über Routen aus, und zwar: wie man sie von überall her erreicht. Diese Routen können spezifisch (wie eine bestimmte Stadt auf der Karte) oder allgemein (wie ein Gebiet) sein. Und dann passierte Ärger.


Ein Internetdienstanbieter in Pennsylvania ( AS33154  - DQE Communications) verwendete BGP Optimizer in seinem Netzwerk, was bedeutete, dass es in seinem Netzwerk viele spezifische Routen gab. Bestimmte Routen haben Vorrang vor allgemeinen Routen (im selben Navigationssystem ist beispielsweise die Route zum Buckingham Palace spezifischer als die Route nach London).


DQE lieferte diese spezifischen Routen an seinen Kunden ( AS396531  - Allegheny Technologies Inc) und von dort an den Transitanbieter ( AS701  - Verizon), der diese „optimalen“ Routen über das Internet verteilte. Sie scheinen optimal zu sein, weil sie mehr Details und Besonderheiten haben.


Und das alles sollte nicht über Verizon hinausgehen. Obwohl es wirksame Möglichkeiten zum Schutz vor solchen Abstürzen gibt, hat das Fehlen von Filtern bei Verizon zu einem Zusammenbruch geführt, der viele Dienste wie Amazon, Linode und Cloudflare betrifft .


Infolgedessen stießen Verizon, Allegheny und DQE auf eine Welle von Benutzern, die über ihr Netzwerk auf diese Dienste zugreifen wollten. Sie waren nicht für solch starken Verkehr ausgelegt, der zu Unterbrechungen führte. Und selbst wenn es genügend Ressourcen gäbe, hätten DQE, Allegheny und Verizon nicht jedem von der idealen Route zu Cloudflare, Amazon, Linode usw. erzählen sollen.



BGP-Leckprozess mit dem BGP-Optimierer.


In den schlimmsten Momenten des Ausfalls beobachteten wir einen Verlust von ungefähr 15% des weltweiten Verkehrs.



Cloudflare-Verkehr während des Vorfalls.


Wie kann ein Leck verhindert werden?


Es gibt verschiedene Möglichkeiten.


Für eine BGP-Sitzung können Sie ein festes Limit für akzeptierte Präfixe festlegen. Wenn die Anzahl der Präfixe den Schwellenwert überschreitet, beendet der Router die Sitzung. Wenn Verizon eine solche Begrenzung für Präfixe hätte, wäre nichts passiert. Für einen Anbieter wie Verizon wäre die Installation wertlos. Warum gab es keine Grenzen? Ich habe eine Version: Nachlässigkeit und Faulheit.


Eine andere Möglichkeit, solche Undichtigkeiten zu vermeiden, ist die Verwendung der IRR-Filterung. IRR (Internet Routing Registry) ist eine verteilte Datenbank von Internetrouten, zu denen Netzwerke Einträge hinzufügen. Andere Netzbetreiber verwenden diese IRR-Einträge, um Listen mit bestimmten Präfixen für BGP-Sitzungen mit anderen Netzen zu erstellen. Wenn IRR-Filter verwendet würden, würde keines dieser Netzwerke fehlerhafte spezifische Routen akzeptieren. Unglaublicherweise hatte Verizon diese Filterung in BGP-Sitzungen mit Allegheny Technologies überhaupt nicht, obwohl die IRR-Filterung seit mehr als 24 Jahren verwendet (und gut dokumentiert) wird. IRR-Filter würden Verizon nichts kosten und ihren Service in keiner Weise einschränken. Und wieder - Nachlässigkeit und Faulheit.


Letztes Jahr haben wir die RPKI-Plattform implementiert und bereitgestellt, die solche Lecks verhindert. Hiermit werden Filter entsprechend dem Quellnetzwerk und der Präfixgröße festgelegt. Cloudflare kündigt Präfixe mit einer maximalen Größe von 20 an. RPKI zeigt an, dass spezifischere Präfixe ungeachtet des Pfades nicht akzeptiert werden können. Damit dieser Mechanismus funktioniert, muss die BGP-Ursprungsvalidierung im Netzwerk aktiviert sein. Viele Anbieter, zum Beispiel AT & T, setzen RPKI bereits erfolgreich in ihrem Netzwerk ein.


Wenn Verizon RPKI verwendet, werden die vorgeschlagenen Routen als ungültig eingestuft und vom Router automatisch abgelehnt.


Cloudflare rät allen Netzwerkbetreibern, RPKI sofort bereitzustellen !



Verhinderung von Leckagen mithilfe von IRR-, RPKI- und Präfix-Grenzwerten.


Alle diese Empfehlungen sind in MANRS (Einvernehmliche Normen für die Routingsicherheit ) ausführlich beschrieben .


So lösen Sie das Problem


Das Cloudflare-Netzwerkteam kontaktierte die betroffenen Netze AS33154 (DQE Communications) und AS701 (Verizon). Es war nicht einfach - vielleicht, weil es zu Beginn ein früher Morgen an der Ostküste der Vereinigten Staaten war.



Screenshot eines Briefes an Verizon.


Einer unserer Netzwerktechniker setzte sich schnell mit DQE Communications in Verbindung, und nach einer kurzen Verzögerung wurden wir mit demjenigen verbunden, der das Problem lösen konnte. Dank unserer telefonischen Unterstützung konnte DQE das Senden von "optimierten" Routen an Allegheny Technologies Inc. einstellen. Wir danken ihnen für ihre Hilfe. Alles stabilisierte sich und normalisierte sich wieder.



Screenshot der Versuche, DQE und Verizon Support Services zu kontaktieren


Trotz aller Versuche, Verizon telefonisch und per E-Mail zu kontaktieren, hat uns zum Zeitpunkt des Schreibens (seit dem Vorfall sind mehr als 8 Stunden vergangen) niemand geantwortet, und wir wissen nicht, ob sie etwas unternehmen .


Wir von Cloudflare möchten dies nicht wiederholen, aber leider wird nur sehr wenig dafür getan. Es ist an der Zeit, dass die Branche effektivere Maßnahmen ergreift, um die Routingsicherheit zu gewährleisten, beispielsweise mit Systemen wie RPKI. Wir hoffen, dass große Anbieter dem Beispiel von Cloudflare, Amazon und AT & T folgen und damit beginnen , Routen zu überprüfen . Dies gilt insbesondere für Sie, Verizon. Wir warten immer noch auf eine Antwort.


Und obwohl wir nicht beeinflussen konnten, entschuldigen wir uns für die Betriebsunterbrechung. Wir kümmern uns um unsere Kunden, und Ingenieure in den USA, Großbritannien, Australien und Singapur haben uns einige Minuten, nachdem wir das Problem entdeckt hatten, kontaktiert.


Andere mit BGP getaggte Artikel .


Jetzt auch beliebt: