Wie wählt man KI-gestützte Rechenzentrums-Switches aus? Kaufberatung für Ethernet-Switches

Mit der rasanten Weiterentwicklung von Technologien der künstlichen Intelligenz (KI) und des Hochleistungsrechnens (HPC) ist die Netzwerklast von Rechenzentren exponentiell gestiegen. Herkömmliche Rechenzentrums-Switches genügen den zentralen Anforderungen an hohe Bandbreite, geringe Latenz und hohe Zuverlässigkeit in KI-Szenarien nicht mehr. Als neuartige Netzwerkgeräte, die KI, maschinelles Lernen (ML) und Cloud-native Architekturen integrieren, haben sich KI-Rechenzentrums-Switches zum zentralen Knotenpunkt für den effizienten Betrieb von Rechenzentren entwickelt. Dieser Artikel vereint branchenspezifisches Fachwissen und bietet Unternehmen einen umfassenden Einkaufsleitfaden für KI-Rechenzentrums-Ethernet-Switches. Er berücksichtigt dabei vier Aspekte: grundlegende KI-Kenntnisse, Hardwareauswahl, Softwareanpassung und Markenwahl. So können Unternehmen ihre Bedürfnisse präzise erfüllen, Beschaffungskosten senken und die Effizienz von Netzwerkbetrieb und -wartung verbessern.

KI-gesteuerte Rechenzentrums-Switches

Unterschiede zwischen KI-gestützten Rechenzentrums-Switches und herkömmlichen Ethernet-Switches

Vor dem Kauf ist es notwendig, die wesentlichen Unterschiede zwischen KI-Rechenzentrumsswitches, herkömmlichen Rechenzentrumsswitches und gewöhnlichen KI-Switches zu klären, um Verwechslungen und Fehlkäufe zu vermeiden.

1. Was ist ein KI-Rechenzentrumsschalter?

KI-basierte Data-Center-Switches, auch bekannt als „intelligente Data-Center-Switches“, sind Hochleistungs-Ethernet-Switches, die speziell für Rechenzentrumsszenarien entwickelt wurden. Basierend auf KI, Cloud-nativer Architektur und maschinellem Lernen optimieren sie Netzwerkbetrieb und -wartung und verbessern die Datenverarbeitungseffizienz. Ihre Kernaufgabe besteht darin, die Übertragungsanforderungen von hohem Datenvolumen, hoher Parallelität und geringer Latenz in KI-Szenarien zu erfüllen. Sie sind für die Zusammenarbeit von Hardware wie Rechenzentrumsservern, Speichergeräten und GPU-Clustern geeignet und werden in großen Unternehmensrechenzentren, extrem großen Cloud-Rechenzentren, KI-Trainingsclustern und anderen Szenarien eingesetzt.

2. Was ist ein traditioneller Rechenzentrums-Switch?

Herkömmliche Rechenzentrumsswitches basieren hauptsächlich auf grundlegenden Layer-2/3-Funktionen, die lediglich eine einfache Datenweiterleitung ermöglichen und über keine intelligenten Analyse- und automatischen Optimierungsfunktionen verfügen; gewöhnliche KI-Switches sind zwar mit KI-gestützten Funktionen ausgestattet, aber nicht für die hohen Last- und Redundanzanforderungen von Rechenzentren optimiert und können sich nicht an den langfristigen Betrieb von groß angelegten KI-Clustern anpassen.

3. Vergleich der Unterschiede

Vergleichsdimension	Traditioneller Rechenzentrums-Switch	KI-Rechenzentrumsschalter
Kerntechnologie	Herkömmliche Layer-2/3-Weiterleitungstechnologie ohne KI-Integration	KI + Cloud-native Architektur + maschinelles Lernen; einige Produkte verfügen über integrierte KI-Chips und unterstützen intelligente, verlustfreie Schaltalgorithmen.
Leistung	Feste Bandbreite, begrenzte Weiterleitungseffizienz und hohe Latenz	Intelligente Priorisierung des Datenverkehrs, geringe Latenz, hoher Durchsatz und verlustfreie Übertragung; einige Modelle unterstützen 48 × 400GE-Ports mit hoher Portdichte pro Steckplatz, um dem exponentiellen Datenverkehrswachstum im Zeitalter der KI gerecht zu werden.
Betriebs- und Wartungsfähigkeit	Manuelle Konfiguration und Überwachung, geringe Effizienz bei der Fehlerbehebung	Automatische Konfiguration und Echtzeit-Anomalieerkennung; kann Engpässe und Fehler vorhersagen, unterstützt die Fehlererkennung auf zweiter Ebene und die automatische Fehlerortung auf Minutenebene, wodurch Betriebs- und Wartungskosten reduziert werden.
Sicherheitsfähigkeit	Grundlegende Sicherheit durch VLAN-Isolation	Zero-Trust-Sicherheitsarchitektur, Echtzeit-Bedrohungserkennung; einige Chips verfügen über einen integrierten Vertrauensanker und unterstützen Verschlüsselung in Leitungsgeschwindigkeit, um die Sicherheit der Datenübertragung zu gewährleisten.
Anwendbare Szenarien	Kleine und mittelgroße Rechenzentren, geringe Auslastung, Szenarien ohne KI	Große Rechenzentren, KI-Trainings-/Inferenzcluster, Cloud-Rechenzentren, Szenarien mit hoher Last und hoher Parallelität sowie die Fähigkeit, sich an neue Anforderungen wie AIGC anzupassen.
Kosteneffizienz	Niedrige Beschaffungskosten, hohe Betriebs- und Wartungskosten	Höhere Anschaffungskosten; reduzierte langfristige Betriebs- und Wartungskosten durch KI-Optimierung; einige Modelle senken den Stromverbrauch pro Bit um 50 % und bieten dadurch mehr Umwelt- und Energieeinsparungsvorteile.

Hardwarekonfiguration

Die Hardware ist der entscheidende Wettbewerbsvorteil von KI-Rechenzentrumsswitches und bestimmt direkt deren Datenverarbeitungskapazität, Stabilität und Skalierbarkeit. Es ist notwendig, sich auf vier Kernmodule zu konzentrieren: Chipsatz (ASIC), CPU, Portkonfiguration und Redundanzdesign.

1. Chipsatz (ASIC)

Der Chipsatz (üblicherweise ein ASIC, anwendungsspezifischer integrierter Schaltkreis ) ist das Herzstück der Datenverarbeitung von Switches. Seine Leistungsfähigkeit bestimmt direkt die Weiterleitungseffizienz, die Latenz und die unterstützten Protokolle und ist somit das „Herzstück“ von KI-Rechenzentrums-Switches. Beim Kauf sollten Sie auf die folgenden sechs Punkte achten:

● Weiterleitungsleistung und Durchsatz: Hochleistungsfähige ASIC-Chips priorisieren, um sicherzustellen, dass der Switch in KI-Szenarien große Datenpakete schnell verarbeiten, einen hohen Durchsatz und geringe Latenz erzielen und Datenstaus vermeiden kann. Beispielsweise können programmierbare P4-Chips mit Intel Tofino-Serie die Weiterleitungseffizienz deutlich verbessern und sich an Szenarien mit hoher Last anpassen.

● Pufferdesign: Der Puffer dient dazu, kurzfristige Datenspitzen zwischenzuspeichern und Paketverluste zu reduzieren. In stark frequentierten Ost-West-Übertragungsszenarien von KI-Rechenzentren kann ein großzügig dimensionierter Puffer die Netzwerkzuverlässigkeit und den Durchsatz effektiv verbessern und plötzliche Datenübertragungsanforderungen bewältigen.

● Optimierung bei geringer Latenz: KI-Training, Inferenz und andere Szenarien stellen extrem hohe Anforderungen an die Latenz, was sich direkt auf die Reaktionsgeschwindigkeit und Verarbeitungseffizienz von KI-Anwendungen auswirkt. Daher ist die Auswahl latenzoptimierter ASIC-Chips unerlässlich. Einige High-End-Modelle erreichen Weiterleitungslatenzen im Mikrosekundenbereich und unterstützen Protokolle wie RoCEv2 für die direkte Datenübertragung zwischen Servern, wodurch die Latenz weiter reduziert wird.

ASIC von KI-Rechenzentrums-Switches

● Erweiterte Protokollunterstützung: ASIC-Chips müssen fortschrittliche Protokolle wie Telemetrie (Echtzeit-Verkehrsüberwachung), QoS (Quality of Service) und PTP (Precision Time Protocol) unterstützen. Telemetrie ermöglicht die Echtzeitüberwachung von Datenverkehr, Latenz und Paketverlust; QoS priorisiert die Datenübertragung von KI-Kernaufgaben; PTP eignet sich für zeitkritische Szenarien wie Finanztransaktionen. Darüber hinaus muss der Chip die SAI-Schnittstelle unterstützen, um die Anforderungen an die Hardware-Software-Entkopplung von White-Box-Switches zu erfüllen und die Kompatibilität zu verbessern.

● Programmierbarkeit: Programmierbare Chips, die die Programmiersprache P4 unterstützen, haben Vorrang. Sie ermöglichen die Erweiterung der Schaltfunktionen durch Software-Upgrades und passen sich so zukünftigen KI-Technologien und Netzwerkanforderungen an, ohne dass Hardware ausgetauscht werden muss. Dadurch werden langfristige Upgrade-Kosten reduziert. Beispielsweise unterstützen Chips der Intel Tofino-Serie die P4-Programmierbarkeit und können neue Funktionen schnell integrieren.

● Energieverbrauch und Wärmeabfuhr: In großen Rechenzentren beeinflussen Energieverbrauch und Wärmeabfuhr der Switches die Betriebskosten direkt. Daher ist es notwendig, energieeffiziente ASIC-Chips auszuwählen, um Stromverbrauch und Wärmeabgabe zu reduzieren und gleichzeitig ein effizientes Wärmeabfuhrkonzept zu implementieren, um Leistungseinbußen oder Geräteausfälle durch Überhitzung zu vermeiden.

2. CPU

Die CPU ist für die Steuerungsebenenoperationen des Switches verantwortlich, einschließlich der Ausführung von Netzwerkprotokollstapeln, der Überwachung des Netzwerkstatus und der Durchführung von Verwaltungsaufgaben. Ihre Leistung beeinflusst direkt die Reaktionsgeschwindigkeit und die Verwaltungseffizienz des Switches. Die wichtigsten Kaufkriterien sind:

● Leistungsanpassung: Wählen Sie eine Hochleistungs-CPU, um die effiziente Verarbeitung komplexer Softwareaufgaben wie Netzwerkprotokolle, virtuelles Routing und Firewalls zu gewährleisten. Insbesondere in großen KI-Clustern kann dies die Fähigkeit des Switches verbessern, mehrere Verbindungen und komplexe Protokolle zu verwalten.

● Marke und Kompatibilität: Priorisieren Sie CPUs bekannter Marken wie Intel, AMD und ARM, die nicht nur eine höhere Stabilität bieten, sondern auch einen breiteren technischen Support und eine bessere Hardwarekompatibilität gewährleisten und somit Hardware-Software-Inkompatibilitätsprobleme vermeiden.

● Virtualisierungs- und Sicherheitsunterstützung: KI-Rechenzentren benötigen in der Regel Virtualisierung. Die CPU muss Virtualisierungstechnologien unterstützen, um Aufgaben wie virtuelle Netzwerke und Mandantenisolation effizient zu bewältigen und über starke Sicherheitsfunktionen verfügen, um Netzwerkangriffe und Datenlecks abzuwehren.

3. Portkonfiguration

Ports bilden das Herzstück der Verbindung von Switches mit Servern, Speichergeräten und anderen Switches. Es ist notwendig, die passende Portdichte und den passenden Porttyp entsprechend dem Umfang und den Bandbreitenanforderungen des Rechenzentrums auszuwählen:

● Portdichte: Wählen Sie entsprechend der Anzahl der Geräte im Rechenzentrum (Server, GPU-Cluster usw.) die passende Anzahl an Ports, um den aktuellen Verbindungsbedarf zu decken und gleichzeitig eine gewisse Redundanz für zukünftige Erweiterungen zu gewährleisten. Beispielsweise bieten NVIDIA Spectrum-X Switches hochdichte 800GbE-Ports, die den Verbindungsbedarf großer KI-Cluster decken.

● Porttyp: KI-Rechenzentren sollten Hochgeschwindigkeitsports priorisieren. Gängige Typen sind 25GbE, 40GbE, 100GbE, 200GbE, 400GbE und 800GbE. 400GbE und 800GbE eignen sich für extrem große KI-Cluster und Datenübertragungsszenarien mit hoher Bandbreite, während 25GbE und 100GbE für kleine und mittelgroße KI-Rechenzentren geeignet sind. Beispielsweise bieten Mellanox Spectrum-3 Switches 48 400GE-Linecards pro Steckplatz, und ein einzelnes Gerät kann eine massive Porterweiterung unterstützen, um dem steigenden Datenverkehr im KI-Zeitalter gerecht zu werden.

● Kompatibilität: Stellen Sie sicher, dass die Ports die aktuellen Geräteschnittstellen des Rechenzentrums unterstützen und Platz für zukünftige Erweiterungen bieten. Unterstützen Sie beispielsweise gängige optische Modulschnittstellen wie QSFP-DD, QSFP28 und OSFP, um die Gerätekompatibilität zu verbessern.

4. Redundanz- und Hochverfügbarkeitsdesign

KI-Rechenzentren stellen extrem hohe Anforderungen an die Netzwerkstabilität. Jeder Geräteausfall kann zu Unterbrechungen des KI-Trainings und zu Datenverlust führen. Daher ist es notwendig, dem Redundanzdesign des Switches besondere Aufmerksamkeit zu widmen.

Arten der Rechenzentrumsredundanz

● Strom- und Lüfterredundanz: Wählen Sie Switches, die mit redundanten Netzteilen und redundanten Lüftern ausgestattet sind, um sicherzustellen, dass das Gerät auch bei Ausfall eines Netzteils oder Lüfters weiterhin normal funktioniert und Netzwerkunterbrechungen aufgrund von Hardwarefehlern vermieden werden.

● Hot-Swap-fähige Komponenten: Unterstützt den Hot-Swap von Komponenten wie Netzteilen, Lüftern und optischen Modulen, wodurch Wartungs- und Austauscharbeiten ohne Unterbrechung des Netzwerkbetriebs durchgeführt werden können und die Netzwerkverfügbarkeit verbessert wird.

● Linkredundanz: Unterstützung von Funktionen wie MLAG (Multi-Chassis Link Aggregation) und EVPN Multi-Homing zur Erreichung von Linkredundanz und Lastausgleich, wodurch sichergestellt wird, dass Daten bei Ausfall einer einzelnen Verbindung schnell auf Backup-Verbindungen umgeschaltet werden können und somit die Netzwerkkontinuität gewährleistet ist.

Software und System

Hardware bildet das Fundament, Software die Seele. Die intelligenten Funktionen, die Effizienz im Betrieb und in der Wartung sowie die Skalierbarkeit von KI-Rechenzentrumsswitches hängen maßgeblich von ihrem Betriebssystem (NOS) und der zugehörigen Software ab. Beim Kauf sollten Sie die folgenden fünf Punkte beachten.

1. Auswahl des Betriebssystems (NOS)

Das Betriebssystem des Switches bestimmt unmittelbar dessen Funktionalität, Stabilität und Skalierbarkeit. Aktuell wird es hauptsächlich in traditionelle, proprietäre Netzwerkbetriebssysteme (NOS) und Open-Source-NOS (wie z. B. SONiC) unterteilt. Beide haben ihre jeweiligen Vorteile und müssen entsprechend den Unternehmensanforderungen ausgewählt werden.

● Open-Source-Netzwerkbetriebssysteme (z. B. SONiC): Ein von Microsoft entwickeltes Open-Source-Betriebssystem, das sich durch Offenheit, Flexibilität und hohe Kosteneffizienz auszeichnet. Es unterstützt die Entkopplung von Hardware und Software, ist mit Hardware verschiedener Hersteller kompatibel und ermöglicht Unternehmen die individuelle Anpassung von Funktionen. So basiert beispielsweise Asterfusions AsterNOS 3.0 auf SONiC und bietet erweiterte Funktionen für Unternehmen, um Stabilität und Kompatibilität zu verbessern und den Anforderungen von KI-Rechenzentren in verschiedenen Branchen gerecht zu werden. Open-Source-Netzwerkbetriebssysteme verfügen zudem über Funktionen wie In-Memory-Datenbanken, Containerisierung und ereignisgesteuerte Architekturen, die ultraschnelle Datenverarbeitung und modulare Bereitstellung ermöglichen und somit den Echtzeitanforderungen von KI-Szenarien entsprechen.

SONiC-Betriebssystemarchitektur

● Traditionelles proprietäres Netzwerkbetriebssystem (NOS): Dieses wird von Switch-Herstellern unabhängig entwickelt und zeichnet sich durch hohe Hardwarekompatibilität, Stabilität sowie umfassenden technischen Support und Firmware-Updates aus. Es eignet sich für Unternehmen mit extrem hohen Anforderungen an die Netzwerkstabilität und ohne eigene IT-Abteilung. Beispielsweise verfügen NX-OS der Cisco Nexus-Serie und das exklusive NOS der NVIDIA Spectrum-Serie über ausgereifte KI-Optimierungsfunktionen und umfassende Protokollunterstützung.

2. Anpassung intelligenter KI-Funktionen

Der Kernnutzen von KI-gestützten Rechenzentrumsswitches liegt in ihren KI-gestützten Funktionen. Um sich an verschiedene Rechenzentrumsszenarien anzupassen, müssen die Switches über folgende intelligente Funktionen verfügen:

● Echtzeit-Anomalieerkennung und Fehlerprognose: Der Netzwerkverkehr wird kontinuierlich mithilfe von KI-Algorithmen analysiert. Anomalien und Sicherheitsrisiken werden in Echtzeit erkannt, Netzwerkengpässe und Geräteausfälle frühzeitig vorhergesagt und präventive Maßnahmen ergriffen, um die Wahrscheinlichkeit von Netzwerkunterbrechungen zu reduzieren. Beispielsweise nutzt NVIDIA Spectrum-X eine verteilte KI-basierte Betriebs- und Wartungsarchitektur mit integrierten KI-Chips und FabricInsight-Netzwerkanalysatoren, um Fehler in Sekundenschnelle zu erkennen und minutengenau zu lokalisieren.

● Automatische Konfiguration und Optimierung: Unterstützt die Bereitstellung ohne Konfiguration und die automatische Netzwerkanpassung. Die Datenverkehrspriorität und Bandbreitenzuweisung werden intelligent an Änderungen im KI-Aufgabenverkehr angepasst, die Netzwerkleistung optimiert und manuelle Eingriffe reduziert. Beispielsweise kann Mellanox Spectrum-3 die Bereitstellungszeit von KI-Clustern durch eine automatisierte Management- und Kontrollanalyseplattform deutlich verkürzen und die Bereitstellungskosten senken.

● Intelligenter Lastausgleich: Unterstützung von KI-gesteuerten Lastausgleichstechnologien wie Global Load Balancing (GLB), die KI/ML-Workloads optimieren, die effektive Netzwerkbandbreite verbessern, eine reibungslose Datenübertragung gewährleisten und sich an die Lastanforderungen von großen KI-Clustern anpassen können.

3. Management- und Überwachungsfähigkeiten

KI-Rechenzentren sind großflächig und verfügen über eine große Anzahl von Switches, daher benötigen sie effiziente Management- und Überwachungsfunktionen, um die Betriebs- und Wartungskosten zu senken:

Rechenzentrumsmanagement und -überwachung

● Zentralisierte Verwaltung: Unterstützung von API-basierten Verwaltungsschnittstellen (wie z. B. REST-APIs), die eine einheitliche Konfiguration, Überwachung und Wartung aller Switches über eine zentrale Verwaltungsplattform ermöglichen und sich so an die Verwaltungsanforderungen von großen Rechenzentren anpassen.

● Automatisierter Betrieb und Wartung: Unterstützung von Automatisierungstools wie Ansible, Puppet und Chef, die eine Automatisierung der Konfiguration, der Firmware-Aktualisierung und der Fehlerbehebung ermöglichen und so manuelle Arbeitsgänge und menschliche Fehler reduzieren.

● Umfassende Überwachung und Fehlerbehebung: Unterstützung von Überwachungsprotokollen wie SNMP, NetFlow und sFlow zur Echtzeitüberwachung von Netzwerkverkehr, Latenz, Paketverlustrate und anderen Indikatoren; verfügt über die INT-Funktion (In-Band-Netzwerktelemetrie), mit der Paketverzögerungen und -verlustpfade verfolgt werden können, was eine schnelle Fehlerbehebung und eine Verbesserung der Betriebs- und Wartungseffizienz ermöglicht.

4. Sicherheitsmerkmale

KI-Rechenzentren speichern große Mengen sensibler Daten, daher ist Netzwerksicherheit von entscheidender Bedeutung. Es ist notwendig, Switches mit umfassenden Sicherheitsfunktionen auszuwählen:

Switch-Sicherheit für KI-Rechenzentren

● Zero-Trust-Sicherheit: Unterstützung einer Zero-Trust-Sicherheitsarchitektur zur Realisierung der Geräteidentitätsauthentifizierung und des hierarchischen Berechtigungsmanagements, Verhinderung unberechtigten Zugriffs und Gewährleistung der Netzwerksicherheit.

● Integrierte Sicherheitsfunktionen: Integriert Funktionen wie Firewalls, Intrusion Detection Systems (IDS) und Access Control Lists (ACLs), um Netzwerkangriffe und Datenlecks zu verhindern; unterstützt Verschlüsselungsprotokolle wie IPsec und MACsec, um die Sicherheit der Datenübertragung zu gewährleisten.

● Sicherheitsupdates: Hersteller müssen kontinuierlich Sicherheitsupdates und Schwachstellenkorrekturen bereitstellen, um zeitnah auf neue Sicherheitsbedrohungen reagieren und die langfristige Netzwerksicherheit gewährleisten zu können. Beispielsweise verwenden Cisco 8223-Chips Post-Quanten-resistente Algorithmen für das Schlüsselmanagement und bieten Verschlüsselung in Leitungsgeschwindigkeit, um die langfristige Sicherheit von KI-Trainingsdaten zu gewährleisten.

5. Skalierbarkeit und Kompatibilität

KI-Technologien und die Skalierung von Rechenzentren entwickeln sich ständig weiter, daher müssen Switches eine gute Skalierbarkeit und Kompatibilität aufweisen, um sich an zukünftige Anforderungen anzupassen:

● Modulares Design: Unterstützt das Hinzufügen und Erweitern von Funktionsmodulen. Neue Funktionen können durch Software-Updates oder Modulerweiterungen hinzugefügt werden, ohne dass das gesamte Gerät ausgetauscht werden muss. Dies reduziert die Upgrade-Kosten.

● Hardware- und Softwarekompatibilität: Kompatibel mit bestehenden Servern, Speichergeräten, Virtualisierungsplattformen und Management-Tools im Rechenzentrum und unterstützt zukünftige Hardware-Upgrades und Software-Iterationen. Beispielsweise wird UEC (Ultra Ethernet Specification) unterstützt, um zukünftigen Anforderungen von KI-Netzwerken gerecht zu werden.

● Architekturanpassung: Unterstützung der Spine-Leaf-Topologie, die durch Hinzufügen von Blattknoten und Spine-Knoten eine horizontale Erweiterung des Netzwerks ermöglicht und sich so an die Erweiterungsbedürfnisse von KI-Rechenzentren anpasst.

Erweiterbare Schalterlösung

Marken- und Produktauswahl

Aktuell sind zahlreiche Marken von KI-Rechenzentrumsswitches auf dem Markt erhältlich. Die Produkttypen lassen sich in Marken-Switches, White-Box-Switches und Bare-Metal-Switches unterteilen. Jeder Typ eignet sich für spezifische Anwendungsfälle und muss entsprechend der Unternehmensgröße, den technischen Möglichkeiten und dem Budget ausgewählt werden.

1. Markenschalter

Marken-Switches werden von namhaften Herstellern wie Cisco, NVIDIA, HPE Aruba, Juniper und Mellanox entwickelt. Dank integrierter Hardware- und Softwarearchitektur, hoher Stabilität und umfassendem technischen Support eignen sie sich besonders für Unternehmen mit hohen Anforderungen an die Netzwerkzuverlässigkeit und ohne eigene IT-Abteilung, insbesondere für große KI-Rechenzentren. Mellanox wurde von NVIDIA übernommen, und seine Produkte sind eng mit NVIDIAs Netzwerklösungen integriert, um eine effizientere Zusammenarbeit zu ermöglichen.

Gängige Marken und repräsentative Produkte:

● Cisco: Ein repräsentatives Produkt ist der KI-Rechenzentrumsswitch der Nexus 9000-Serie, ausgestattet mit P200-Chips und Unterstützung für die Open-Source-Systeme SONiC und IOS XR. Er zeichnet sich durch hohen Durchsatz und geringe Latenz aus und eignet sich daher für extrem große KI-Rechenzentren. Er unterstützt Verschlüsselung in Leitungsgeschwindigkeit und ein Root-of-Trust-Sicherheitsdesign und ist somit ideal für verteilte KI-Verbindungsszenarien.

Switches der Nexus 9000-Serie

● NVIDIA: Zu den repräsentativen Produkten gehören die Siliziumphotonik-Netzwerk-Switches Spectrum-X und Quantum-X. Basierend auf der neuen Siliziumphotonik-Technologie und dem Co-Packaged Optics (CPO)-Design wird der Stromverbrauch von Rechenzentren deutlich reduziert und die Netzwerkübertragungseffizienz verbessert. Dadurch eignen sie sich für KI-Fabriken im Ultra-Skalenmaßstab und die Vernetzung von Clustern mit Millionen von GPUs. Die Spectrum-X Ethernet-Plattform basiert auf NVIDIA Spectrum ASIC-Switching-Chips und bietet eine 1,6-fach höhere Bandbreitendichte als herkömmliches Ethernet. Die Quantum-X Photonics InfiniBand-Plattform ist flüssigkeitsgekühlt und bietet 144 Ports mit 800 Gbit/s. Die KI-Rechenarchitektur ist doppelt so schnell wie bei der Vorgängergeneration, die Skalierbarkeit um das Fünffache erhöht und die Energieeffizienz um das 3,5-Fache verbessert. In Kombination mit der BlueField DPU und dem DOCA-Software-Framework bietet sie effiziente Netzwerkunterstützung für das KI-Training.

NVIDIA Spectrum-X

● Mellanox: Das repräsentative Produkt ist der KI-Rechenzentrumsswitch der Spectrum-3-Serie. Ausgestattet mit leistungsstarken ASIC-Chips, unterstützt er P4-Programmierbarkeit und eine SAI-Schnittstelle. Dank hoher Bandbreite und geringer Latenz bietet er bis zu 48 400GE-Ports pro Steckplatz und eignet sich somit für kleine und mittelgroße KI-Rechenzentren sowie Hybrid-Cloud-Szenarien. Das integrierte intelligente KI-Betriebs- und Wartungsmodul ermöglicht die Echtzeit-Erkennung von Verkehrsanomalien, automatischen Lastausgleich und Fehlerprognose. Es unterstützt die Automatisierungstools von Ansible für Betrieb und Wartung und integriert eine Zero-Trust-Sicherheitsarchitektur sowie das MACsec-Verschlüsselungsprotokoll. Dies gewährleistet ein ausgewogenes Verhältnis von Stabilität und Sicherheit und erfüllt die Anforderungen von KI-Inferenz und kleinen bis mittelgroßen Trainingsclustern. Mellanox wurde von NVIDIA übernommen. Die Produkte sind eng mit den Netzwerklösungen von NVIDIA integriert und arbeiten mit NVIDIA Spectrum-X und anderen Produktserien zusammen, um die Übertragungseffizienz von KI-Netzwerken weiter zu verbessern.

Mellanox Spectrum-3

● HPE Aruba: Repräsentatives Produkt ist der KI-Switch der CX 10000-Serie, der über KI-gesteuerte Verkehrsoptimierung und Echtzeit-Anomalieerkennungsfunktionen verfügt, Cloud-natives Management unterstützt und sich mit starker Kompatibilität an hybride Cloud-Rechenzentren und KI-Szenarien anpasst.

HPE Aruba Networking CX-10000 Switch

● Juniper: Ein repräsentatives Produkt ist der KI-Switch der EX4400-Serie, der sich durch hohe Skalierbarkeit und geringe Latenz auszeichnet, KI-gesteuertes Betriebs- und Wartungsmanagement unterstützt und sich für mittelgroße KI-Rechenzentren eignet.

Juniper EX4400 Switch-Serie

2. White-Box-Schalter

White-Box-Switches zeichnen sich durch ein Hardware-Software-Entkopplungsdesign aus. Die Hardware wird von ODM-Herstellern gefertigt, während für die Software Open-Source-Netzwerkbetriebssysteme (wie z. B. SONiC) oder Netzwerkbetriebssysteme von Drittanbietern zur Verfügung stehen. Dank ihrer hohen Flexibilität und niedrigen Anschaffungskosten eignen sie sich für Unternehmen mit entsprechenden technischen Fähigkeiten, die Wert auf Wirtschaftlichkeit legen.

Hinweise: Bei der Auswahl von White-Box-Switches ist darauf zu achten, dass der ASIC-Chip die SAI-Schnittstelle unterstützt. Hersteller, die Komplettservices anbieten (wie Edgecore, Asterfusion, Celestica), sollten bevorzugt werden, um den separaten After-Sales-Service für Hardware und Software zu vermeiden und den Betriebs- und Wartungssupport zu verbessern. Asterfusion bietet beispielsweise nicht nur White-Box-Hardware, sondern auch das auf SONiC basierende Betriebssystem AsterNOS für integrierte Hardware- und Software-Services.

3. Bare-Metal-Schalter

Bare-Metal-Switches bieten lediglich Hardware ohne vorinstalliertes Betriebssystem. Unternehmen müssen ein Open-Source-Netzwerkbetriebssystem (z. B. SONiC) installieren oder ein eigenes Netzwerkbetriebssystem entwickeln. Dank ihrer hohen Anpassbarkeit eignen sie sich für große Unternehmen (z. B. sehr große Cloud-Anbieter) mit professionellen technischen Teams und speziellen Anpassungsanforderungen.

Schalter aus blankem Metall

Hinweise: Bare-Metal-Switches bieten in der Regel keinen offiziellen technischen Support und stellen sehr hohe Anforderungen an die technischen Fähigkeiten des Unternehmens. Es muss sichergestellt sein, dass ein komplettes technisches Team für die Installation, Konfiguration und Wartung des Betriebssystems zur Verfügung steht. FiberMart bietet vielseitige Optionen und eingeschränkten technischen Support für Bare-Metal-Switches für Unternehmen mit speziellen Anpassungsanforderungen und After-Sales-Problemen.

Praktischer Kaufprozess und Hinweise

1. Fünf-Schritte-Praxiskaufprozess

● Bedarf klären: Ermitteln Sie den Umfang des Rechenzentrums (Anzahl der Geräte, Umfang des KI-Clusters), den Bandbreitenbedarf (Porttyp, Durchsatz), die KI-Szenarien (Training/Inferenz), die Betriebs- und Wartungskapazitäten (Größe des technischen Teams) und den Budgetrahmen und klären Sie die Kernanforderungen (wie niedrige Latenz, hohe Redundanz, Kostenkontrolle).

● Hardwarekonfiguration festlegen: Wählen Sie den passenden ASIC-Chip, die CPU, die Portkonfiguration und das Redundanzdesign entsprechend den Anforderungen aus. Priorisieren Sie geringe Latenz und hohen Durchsatz und planen Sie Erweiterungsmöglichkeiten ein. Beispielsweise erfordern KI-Trainingsszenarien geringe Latenz und hohe Bandbreite. Wählen Sie hierfür 400GbE/800GbE-Ports und Chips mit großem Pufferspeicher.

● Betriebssystem auswählen: Unternehmen mit starken technischen Fähigkeiten, die auf Kosteneffizienz Wert legen, können sich für das Open-Source-SONiC-System entscheiden; Unternehmen mit hohen Anforderungen an die Stabilität und fehlenden technischen Teams können sich für ein herstellerunabhängig entwickeltes Closed-Source-NOS entscheiden.

● Marken und Produkte prüfen: Budget und Bedürfnisse berücksichtigen, um geeignete Marken und Produkte zu prüfen, Produktleistung, Preis, technischen Support und Kundendienstgarantie zu vergleichen und ausgereifte Produkte mit gutem Marktruf und Eignung für KI-Szenarien zu priorisieren.

● Testen und Verifizieren: Vor der Beschaffung sollten Tests im kleinen Rahmen durchgeführt werden, um die Leistung (Latenz, Durchsatz), Kompatibilität und KI-Funktionen des Switches zu überprüfen und sicherzustellen, dass er den tatsächlichen Anforderungen entspricht.

KI-Rechenzentrum

2. Wichtigste Anmerkungen

● Vermeiden Sie Überkonfigurationen: Wählen Sie die Konfigurationen bedarfsgerecht, setzen Sie nicht blind auf High-End-Hardware und vermeiden Sie unnötige Kosten. Beispielsweise benötigen kleine und mittelgroße KI-Rechenzentren keine 800-GbE-Ports; 100-GbE- oder 400-GbE-Ports sind ausreichend.

● Legen Sie Wert auf Kundendienst und technischen Support: Betrieb und Wartung von KI-Rechenzentrumsswitches sind komplex. Um Netzwerkunterbrechungen aufgrund unzureichenden Kundendienstes zu vermeiden, ist es wichtig, Hersteller auszuwählen, die umfassenden Kundendienst, langfristige Firmware-Updates und schnelle Fehlerbehebung bieten. Wählen Sie beispielsweise Hersteller, die eine fünfjährige Hardware-Wartung anbieten, um langfristige Betriebs- und Wartungsrisiken zu minimieren.

● Zukünftige Skalierbarkeit berücksichtigen: Wählen Sie Switches mit modularem Design und Unterstützung für Architekturerweiterungen, um sich an das Wachstum der KI-Technologie und die Skalierung von Rechenzentren anzupassen und so kurzfristig wiederholte Beschaffungen zu vermeiden.

● Achten Sie auf die Energiekosten: In großen Rechenzentren stellen die Energiekosten der Switches einen wichtigen Betriebskostenfaktor dar. Setzen Sie vorrangig auf energieeffiziente Produkte, um Stromverbrauch und Wärmeentwicklung zu reduzieren.

Fibermart S6670 Serie Rechenzentrums-Switch

Abschluss

Die Auswahl eines Ethernet-Switches für KI-Rechenzentren zielt darauf ab, „die Anforderungen zu erfüllen und Leistung und Kosten in Einklang zu bringen“. Unternehmen müssen zunächst die Größe ihres Rechenzentrums, die Anforderungen ihrer KI-Szenarien sowie ihre Betriebs- und Wartungskapazitäten klären und anschließend anhand von drei Kernkriterien filtern: Hardware (Chip, CPU, Port, Redundanz), Software (Betriebssystem, KI-Funktionen, Managementfunktionen) und Marke (Stabilität, Kundendienst). Dabei sollte eine unüberlegte Suche nach High-End-Konfigurationen oder Billigprodukten vermieden werden.

Für die meisten Unternehmen sind Marken-Switches die zuverlässigere Wahl. Produkte von Herstellern wie NVIDIA (einschließlich des übernommenen Unternehmens Mellanox) und Cisco bieten ein ausgewogenes Verhältnis von Stabilität und technischem Support. Unternehmen mit entsprechenden technischen Ressourcen können White-Box-Switches wählen, um Kosten zu senken. Große Unternehmen oder solche mit individuellen Anpassungsanforderungen können Bare-Metal-Switches, wie sie beispielsweise FiberMart anbietet, in Betracht ziehen. Letztendlich ermöglicht die Auswahl von Produkten, die sich an die jeweiligen KI-Szenarien anpassen, Netzwerkstabilität gewährleisten und die langfristigen Betriebs- und Wartungskosten reduzieren, die volle Leistungsfähigkeit von KI-Rechenzentren und unterstützt die digitale und intelligente Transformation von Unternehmen.

Häufig gestellte Fragen

1. Worin besteht der Unterschied zwischen KI-Rechenzentrumsswitches und herkömmlichen Switches?

KI-Switches unterstützen intelligente Analysen, geringe Latenz und hohe Bandbreite für rechenintensive KI-Workloads. Herkömmliche Switches führen lediglich eine einfache Datenweiterleitung durch.

2. Welche Hardware ist beim Kauf eines KI-Switches am wichtigsten?

Der Fokus liegt auf dem ASIC-Chip, der Portgeschwindigkeit (100G/400G/800G) und der Redundanz – diese Faktoren entscheiden über Leistung und Zuverlässigkeit.

3. In welcher Beziehung stehen die Switches von NVIDIA und Mellanox zueinander?

Mellanox wurde von NVIDIA übernommen. Beide Unternehmen gehören zum selben Spectrum-Ökosystem; NVIDIA für High-End-KI-Cluster, Mellanox für allgemeine, stabile Implementierungen.

4. Soll es das Open-Source-Betriebssystem SONiC oder das herstellereigene, proprietäre Betriebssystem sein?

Open-Source für Teams mit ausgeprägten technischen Fähigkeiten; Closed-Source für stabile, wartungsarme Systeme.

5. Was genau leistet die „KI-Intelligenz“?

Es optimiert den Datenverkehr automatisch, erkennt Anomalien in Echtzeit und sagt Fehler voraus, um den manuellen Aufwand zu reduzieren.

6. Was ist der größte Fehler bei der Auswahl von Schaltern?

Geben Sie nicht unnötig viel Geld für High-End-Spezifikationen aus. Prüfen Sie außerdem Kompatibilität und Kundendienst.

Hochleistungs SMA90 ...

CLETOP Rollenverbind...

CLETOP Typ A Rolle V...

FC/APC-zu-FC/APC-Sin...

FC/APC zu LC/UPC Sin...

FC/APC auf ST/UPC Si...

SC-Buchse auf LC-Ste...

2x2 FBT Einspielermo...