В связи с быстрым развитием технологий искусственного интеллекта (ИИ) и высокопроизводительных вычислений (ВВП) нагрузка на сети центров обработки данных выросла экспоненциально. Традиционные коммутаторы центров обработки данных больше не могут удовлетворять основным требованиям высокой пропускной способности, низкой задержки и высокой надежности в сценариях с использованием ИИ. Как новый тип сетевых устройств, объединяющий ИИ, машинное обучение (МО) и облачную архитектуру, коммутаторы центров обработки данных с поддержкой ИИ стали ключевым узлом, обеспечивающим эффективную работу центров обработки данных. В данной статье будут обобщены основные отраслевые знания и предоставлено предприятиям всестороннее руководство по выбору коммутаторов Ethernet для центров обработки данных с поддержкой ИИ, охватывающее четыре аспекта: базовые знания, выбор оборудования, программную адаптацию и выбор бренда. Это поможет предприятиям точно определить свои потребности, снизить затраты на закупку и повысить эффективность эксплуатации и обслуживания сети.

Различия между коммутаторами для центров обработки данных с поддержкой ИИ и традиционными коммутаторами Ethernet.
Перед совершением покупки необходимо уточнить основные различия между коммутаторами для центров обработки данных с искусственным интеллектом, традиционными коммутаторами для центров обработки данных и обычными коммутаторами с искусственным интеллектом, чтобы избежать путаницы в потребностях и несоответствия продуктов.
1. Что такое коммутатор центра обработки данных с поддержкой ИИ?
Коммутаторы для центров обработки данных с поддержкой ИИ, также известные как «интеллектуальные коммутаторы для центров обработки данных», представляют собой высокопроизводительные коммутаторы Ethernet, специально разработанные для сценариев центров обработки данных. Основанные на технологиях ИИ, облачной архитектуры и машинного обучения, они оптимизируют работу и обслуживание сети, а также повышают эффективность обработки данных. Их основная задача — решение проблем передачи больших объемов данных, высокой параллельности и низкой задержки в сценариях с использованием ИИ, адаптация к совместной работе оборудования, такого как серверы центров обработки данных, устройства хранения данных и кластеры графических процессоров, и широкое применение в крупных корпоративных центрах обработки данных, сверхкрупномасштабных облачных центрах обработки данных, кластерах для обучения ИИ и других сценариях.
2. Что такое традиционный коммутатор центра обработки данных?
Традиционные коммутаторы для центров обработки данных в основном полагаются на базовые функции уровня 2/3, которые обеспечивают лишь базовую пересылку данных и не обладают возможностями интеллектуального анализа и автоматической оптимизации; обычные коммутаторы с поддержкой ИИ, хотя и оснащены функциями, улучшенными за счет ИИ, не оптимизированы для высоких нагрузок и требований к высокой избыточности в центрах обработки данных и не могут адаптироваться к длительной работе крупномасштабных кластеров ИИ.
Конфигурация оборудования
Аппаратное обеспечение является ключевым фактором конкурентоспособности коммутаторов для центров обработки данных с использованием искусственного интеллекта, напрямую определяя их возможности обработки данных, стабильность и масштабируемость. Необходимо сосредоточиться на четырех основных модулях: чипсете (ASIC), процессоре, конфигурации портов и проектировании резервирования.
1. Чипсет (ASIC)
Чипсет (обычно ASIC, Application-Specific Integrated Circuit ) является ядром обработки данных в коммутаторах. Его производительность напрямую определяет эффективность пересылки данных, задержку и возможности поддержки протоколов, и он является «сердцем» коммутаторов для центров обработки данных, использующих искусственный интеллект. При покупке следует обратить внимание на следующие 6 пунктов:
● Производительность и пропускная способность пересылки данных: Приоритет отдается высокопроизводительным микросхемам ASIC, чтобы коммутатор мог быстро обрабатывать большие объемы пакетов данных в сценариях с использованием ИИ, достигать высокой пропускной способности и низкой задержки, а также избегать перегрузки данных. Например, программируемые микросхемы P4, оснащенные чипами серии Intel Tofino, могут значительно повысить эффективность пересылки данных и адаптироваться к сценариям с высокой нагрузкой.
● Конструкция буфера: Буфер используется для кэширования пиковых нагрузок и уменьшения потерь пакетов. В условиях интенсивной передачи данных между центрами обработки данных ИИ, большой буфер может эффективно повысить надежность и пропускную способность сети, а также справиться с внезапными потребностями в передаче данных.
● Оптимизация низкой задержки: обучение ИИ, вывод результатов и другие сценарии предъявляют чрезвычайно высокие требования к задержке, что напрямую влияет на скорость отклика и эффективность обработки данных в приложениях ИИ. Необходимо выбирать ASIC-чипы, оптимизированные для снижения задержки; некоторые высокопроизводительные модели могут достигать задержки пересылки на уровне микросекунд и поддерживать такие протоколы, как RoCEv2, для реализации прямой передачи данных между серверами, что еще больше снижает задержку.

● Поддержка расширенных протоколов: микросхемы ASIC должны поддерживать расширенные протоколы, такие как телеметрия (мониторинг трафика в реальном времени), QoS (качество обслуживания) и PTP (протокол точного времени). Среди них телеметрия позволяет осуществлять мониторинг трафика, задержки и потери пакетов в реальном времени; QoS позволяет расставлять приоритеты при передаче трафика для основных задач ИИ; PTP подходит для сценариев, чувствительных ко времени, таких как финансовые транзакции. Кроме того, микросхема должна поддерживать интерфейс SAI для адаптации к потребностям аппаратно-программной децентрализации коммутаторов типа «белый ящик» и повышения совместимости.
● Программируемость: Приоритет отдается программируемым чипам, поддерживающим язык программирования P4, которые позволяют расширять функциональные возможности коммутаторов за счет обновлений программного обеспечения, адаптируясь к будущим разработкам в области ИИ и потребностям сети без замены оборудования, что снижает долгосрочные затраты на модернизацию. Например, чипы серии Intel Tofino поддерживают программируемость P4 и позволяют быстро интегрировать новые функции.
● Энергопотребление и теплоотвод: В крупных центрах обработки данных энергопотребление и теплоотвод коммутаторов напрямую влияют на эксплуатационные расходы. Необходимо выбирать энергоэффективные ASIC-чипы для снижения энергопотребления и тепловыделения, а также использовать эффективную систему теплоотвода, чтобы избежать снижения производительности или выхода оборудования из строя из-за перегрева.
2. ЦП
Центральный процессор отвечает за операции плоскости управления коммутатора, включая запуск стеков сетевых протоколов, мониторинг состояния сети и обработку задач управления. Его производительность напрямую влияет на скорость отклика и эффективность управления коммутатором. Ключевые моменты при покупке следующие:
● Адаптация производительности: Выбор высокопроизводительного процессора обеспечивает эффективную обработку сложных задач на программном уровне, таких как сетевые протоколы, виртуальная маршрутизация и межсетевые экраны. Особенно в крупных кластерах ИИ это позволяет улучшить способность коммутатора управлять множеством соединений и сложными протоколами.
● Бренд и совместимость: Отдавайте предпочтение процессорам известных брендов, таких как Intel, AMD и ARM, которые не только обладают большей стабильностью, но и обеспечивают более широкую техническую поддержку и совместимость с оборудованием, избегая проблем несовместимости аппаратного и программного обеспечения.
● Поддержка виртуализации и безопасности: Центры обработки данных для ИИ, как правило, нуждаются в виртуализации. Процессор должен поддерживать технологию виртуализации, эффективно обрабатывать такие задачи, как виртуальные сети и изоляция арендаторов, а также обладать мощными вычислительными мощностями для защиты от сетевых атак и рисков утечки данных.
3. Конфигурация портов
Порты являются основой для подключения коммутаторов к серверам, устройствам хранения данных и другим коммутаторам. Необходимо выбрать соответствующую плотность и тип портов в зависимости от масштаба и потребностей центра обработки данных в пропускной способности:
● Плотность портов: В зависимости от количества устройств в центре обработки данных (серверы, кластеры графических процессоров и т. д.) выбирается соответствующее количество портов, обеспечивающее удовлетворение текущих потребностей в подключении, с определенным резервом для адаптации к будущему расширению. Например, коммутаторы NVIDIA Spectrum-X могут обеспечить высокую плотность портов 800GbE, что позволяет удовлетворить потребности в подключении крупномасштабных кластеров ИИ.
● Типы портов: Центры обработки данных для ИИ должны отдавать приоритет высокоскоростным портам. К распространенным типам относятся 25GbE, 40GbE, 100GbE, 200GbE, 400GbE и 800GbE. Среди них 400GbE и 800GbE подходят для сверхкрупных кластеров ИИ и сценариев высокоскоростной передачи данных, в то время как 25GbE и 100GbE подходят для малых и средних центров обработки данных для ИИ. Например, коммутаторы Mellanox Spectrum-3 могут предоставлять 48-портовые линейные карты 400GE на слот, и одна машина может поддерживать масштабное расширение портов для удовлетворения растущего спроса на трафик в эпоху ИИ.
● Совместимость: Убедитесь, что порты поддерживают текущие интерфейсы устройств центра обработки данных, и зарезервируйте место для будущих обновлений. Например, обеспечьте поддержку распространенных интерфейсов оптических модулей, таких как QSFP-DD, QSFP28 и OSFP, для повышения совместимости устройств.
4. Проектирование с резервированием и обеспечением высокой доступности
Центры обработки данных для ИИ предъявляют чрезвычайно высокие требования к стабильности сети. Любой сбой устройства может привести к прерыванию обучения ИИ и потере данных. Поэтому необходимо уделить особое внимание проектированию резервной системы коммутаторов:

● Резервирование питания и вентиляторов: Выбирайте коммутаторы, оснащенные резервными источниками питания и резервными вентиляторами, чтобы гарантировать нормальную работу устройства при отказе одного из источников питания или вентилятора, избегая прерывания работы сети из-за аппаратных сбоев.
● Компоненты с возможностью «горячей» замены: Поддерживается «горячая» замена таких компонентов, как блоки питания, вентиляторы и оптические модули, что позволяет проводить техническое обслуживание и замену без прерывания работы сети, повышая ее доступность.
● Резервирование каналов: Поддержка таких функций, как MLAG (агрегация каналов между несколькими шасси) и EVPN Multi-Homing, обеспечивает резервирование каналов и балансировку нагрузки, гарантируя быстрое переключение данных на резервные каналы в случае отказа одного из них и обеспечивая непрерывность сети.
Программное обеспечение и система
Аппаратное обеспечение — это основа, а программное обеспечение — душа. Интеллектуальные функции, эффективность эксплуатации и обслуживания, а также масштабируемость коммутаторов для центров обработки данных с поддержкой ИИ зависят от их операционной системы (NOS) и поддерживающего программного обеспечения. При покупке следует обратить внимание на следующие 5 пунктов.
1. Выбор операционной системы (NOS)
Операционная система коммутатора напрямую определяет его функциональную целостность, стабильность и масштабируемость. В настоящее время они в основном делятся на традиционные закрытые и открытые операционные системы (например, SONiC). Обе имеют свои преимущества, и выбор должен осуществляться в соответствии с потребностями предприятия.
● Сетевые операционные системы с открытым исходным кодом (например, SONiC): операционная система с открытым исходным кодом, выпущенная Microsoft, обладающая преимуществами открытости, гибкости и высокой экономической эффективности. Она поддерживает разделение аппаратного и программного обеспечения, может адаптироваться к оборудованию разных производителей и позволяет предприятиям настраивать функции в соответствии со своими потребностями. Например, AsterNOS 3.0 от Asterfusion разработана на основе SONiC, с добавлением расширенных функций корпоративного уровня для повышения стабильности и совместимости, адаптируясь к потребностям центров обработки данных ИИ в различных отраслях. Сетевые операционные системы с открытым исходным кодом также обладают такими функциями, как базы данных в оперативной памяти, контейнеризация и событийно-ориентированная архитектура, что позволяет реализовать сверхбыструю обработку данных и модульное развертывание, адаптируясь к потребностям сценариев ИИ в режиме реального времени.

● Традиционная сетевая ОС с закрытым исходным кодом: разработанная производителями коммутаторов, она обладает высокой совместимостью с оборудованием, стабильностью и предоставляет комплексную техническую поддержку и услуги обновления прошивки. Она подходит для предприятий с чрезвычайно высокими требованиями к стабильности сети и отсутствием профессиональных технических специалистов. Например, NX-OS, используемая в коммутаторах серии Cisco Nexus, и эксклюзивная сетевая ОС, используемая в коммутаторах серии NVIDIA Spectrum, обладают развитыми функциями оптимизации на основе ИИ и комплексной поддержкой протоколов.
2. Адаптация интеллектуальных функций ИИ.
Основная ценность коммутаторов для центров обработки данных, использующих искусственный интеллект, заключается в их расширенных возможностях на основе ИИ. Для адаптации к сценариям работы центров обработки данных необходимо обеспечить наличие у коммутаторов следующих интеллектуальных функций:
● Обнаружение аномалий и прогнозирование неисправностей в реальном времени: непрерывный анализ сетевого трафика с помощью алгоритмов ИИ, обнаружение аномального поведения и угроз безопасности в реальном времени, прогнозирование узких мест в сети и неисправностей оборудования, а также принятие превентивных мер для снижения вероятности сбоев в сети. Например, NVIDIA Spectrum-X создает распределенную архитектуру управления и обслуживания на основе ИИ с использованием встроенных чипов ИИ и сетевых анализаторов FabricInsight, обеспечивая идентификацию неисправностей на уровне секунд и определение местоположения неисправностей на уровне минут.
● Автоматическая настройка и оптимизация: Поддержка развертывания без необходимости настройки и автоматической адаптации сети. Система может интеллектуально регулировать приоритет трафика и распределение полосы пропускания в соответствии с изменениями в трафике задач ИИ, оптимизировать производительность сети и сократить ручное вмешательство. Например, Mellanox Spectrum-3 может значительно сократить время развертывания кластера ИИ и снизить затраты на развертывание благодаря автоматизированной платформе управления и анализа.
● Интеллектуальная балансировка нагрузки: Поддержка технологий балансировки нагрузки на основе ИИ, таких как глобальная балансировка нагрузки (GLB), которая может оптимизировать рабочие нагрузки ИИ/машинного обучения, повысить эффективную пропускную способность сети, обеспечить бесперебойную передачу данных и адаптироваться к потребностям нагрузки крупномасштабных кластеров ИИ.
3. Возможности управления и мониторинга
Центры обработки данных для ИИ имеют большие масштабы и большое количество коммутаторов, поэтому им необходимы эффективные возможности управления и мониторинга для снижения эксплуатационных и технических затрат:

● Централизованное управление: Поддержка интерфейсов управления на основе API (например, REST API), позволяющая реализовать унифицированную конфигурацию, мониторинг и обслуживание всех коммутаторов через централизованную платформу управления, адаптируясь к потребностям управления крупных центров обработки данных.
● Автоматизированное управление и техническое обслуживание: Поддержка инструментов автоматизации, таких как Ansible, Puppet и Chef, позволяет автоматизировать настройку, обновление прошивки и устранение неполадок, сокращая количество ручных операций и человеческих ошибок.
● Комплексный мониторинг и устранение неполадок: Поддержка протоколов мониторинга, таких как SNMP, NetFlow и sFlow, для отслеживания сетевого трафика, задержки, скорости потери пакетов и других показателей в режиме реального времени; наличие функции INT (внутриполосная сетевая телеметрия), которая позволяет отслеживать задержки и пути потери пакетов, что помогает быстро устранять неисправности и повышать эффективность эксплуатации и технического обслуживания.
4. Функции безопасности
В центрах обработки данных, предназначенных для искусственного интеллекта, хранится большой объем конфиденциальных данных, поэтому сетевая безопасность имеет решающее значение. Необходимо выбирать коммутаторы с полным набором функций безопасности:

● Безопасность на основе принципа нулевого доверия: Поддержка архитектуры безопасности на основе принципа нулевого доверия для реализации аутентификации личности устройства и иерархического управления разрешениями, предотвращения несанкционированного доступа и обеспечения сетевой безопасности.
● Встроенные функции безопасности: интеграция таких функций, как межсетевые экраны, системы обнаружения вторжений (IDS) и списки контроля доступа (ACL), для предотвращения сетевых атак и утечки данных; поддержка протоколов шифрования, таких как IPsec и MACsec, для обеспечения безопасности передачи данных.
● Обновления безопасности: Производителям необходимо постоянно выпускать обновления безопасности и устранять уязвимости, чтобы своевременно реагировать на возникающие угрозы безопасности и обеспечивать долгосрочную безопасность сети. Например, чипы Cisco 8223 используют постквантовые устойчивые алгоритмы для управления ключами и обеспечивают шифрование на скорости передачи данных, что гарантирует долговременную безопасность данных для обучения ИИ.
5. Масштабируемость и совместимость
Технологии искусственного интеллекта и масштабы центров обработки данных постоянно развиваются, поэтому коммутаторы должны обладать хорошей масштабируемостью и совместимостью, чтобы адаптироваться к будущим потребностям:
● Модульная конструкция: Поддержка добавления и обновления функциональных модулей. Новые функции могут быть добавлены посредством обновлений программного обеспечения или расширения модулей без замены всего устройства, что снижает затраты на модернизацию.
● Аппаратная и программная совместимость: Совместимость с существующими серверами, устройствами хранения данных, платформами виртуализации и инструментами управления в центре обработки данных, а также поддержка будущих обновлений оборудования и итераций программного обеспечения. Например, поддержка UEC (спецификация Ultra Ethernet) для адаптации к будущим потребностям сетей искусственного интеллекта.
● Адаптация архитектуры: Поддержка топологии Spine-Leaf, которая позволяет осуществлять горизонтальное расширение масштабов сети за счет добавления оконечных и магистральных узлов, адаптируясь к потребностям расширения центров обработки данных в сфере ИИ.

Выбор бренда и продукции
В настоящее время на рынке представлено множество брендов коммутаторов для центров обработки данных с поддержкой искусственного интеллекта, и типы продукции делятся на брендовые коммутаторы, коммутаторы без операционной системы и коммутаторы без предустановленной операционной системы. Различные типы имеют свои сценарии применения и требуют выбора в зависимости от масштаба предприятия, технических возможностей и бюджета.
1. Фирменные выключатели
Фирменные коммутаторы разрабатываются известными производителями, такими как Cisco, NVIDIA, HPE Aruba, Juniper и Mellanox. Благодаря интегрированной аппаратной и программной архитектуре, высокой стабильности и всесторонней технической поддержке, они подходят для предприятий с высокими требованиями к надежности сети и нехваткой профессиональных технических специалистов, особенно для крупных центров обработки данных, использующих искусственный интеллект. Среди них Mellanox, приобретенная NVIDIA, имеет глубокую интеграцию своей продукции с сетевыми решениями NVIDIA для более эффективной совместной работы.
Основные бренды и типичные товары:
● Cisco: Представительным продуктом является коммутатор Nexus 9000 серии для центров обработки данных с поддержкой ИИ, оснащенный чипами P200 и поддерживающий двойную систему с открытым исходным кодом SONiC и IOS XR. Он обладает высокой пропускной способностью и низкой задержкой, что делает его подходящим для сверхкрупномасштабных центров обработки данных с ИИ, поддерживает шифрование на скорости канала и архитектуру безопасности «корень доверия», что делает его подходящим для распределенных сценариев межсоединений в среде ИИ.

● NVIDIA: Представительными продуктами являются сетевые коммутаторы на основе кремниевой фотоники Spectrum-X и Quantum-X, созданные на базе новой технологии кремниевой фотоники и использующие конструкцию Co-Packaged Optics (CPO), что значительно снижает энергопотребление центров обработки данных и повышает эффективность передачи данных по сети, адаптируясь к сценариям сверхкрупномасштабных фабрик ИИ и межсоединений кластеров с миллионами графических процессоров. Среди них платформа Ethernet Spectrum-X основана на коммутационных чипах NVIDIA Spectrum ASIC, обеспечивающих в 1,6 раза большую пропускную способность, чем традиционный Ethernet; платформа InfiniBand на основе фотоники Quantum-X использует систему жидкостного охлаждения, обеспечивая 144 порта 800 Гбит/с, с архитектурой вычислений ИИ в 2 раза более высокой скоростью по сравнению с предыдущим поколением, масштабируемостью в 5 раз и энергоэффективностью в 3,5 раза. В сочетании с BlueField DPU и программной платформой DOCA она обеспечивает эффективную сетевую поддержку для обучения ИИ.

● Mellanox: Представительным продуктом является коммутатор для центров обработки данных серии Spectrum-3 с поддержкой ИИ, оснащенный высокопроизводительными ASIC-чипами, поддерживающий программируемость P4 и интерфейс SAI, обладающий высокой пропускной способностью и низкой задержкой, а также поддерживающий 48 портов высокой плотности 400GE на слот, что подходит для малых и средних центров обработки данных с ИИ и сценариев гибридного облака. Он имеет встроенный модуль интеллектуального управления и обслуживания ИИ, который обеспечивает обнаружение аномалий трафика в реальном времени, автоматическую балансировку нагрузки и прогнозирование неисправностей, поддерживает инструменты автоматизации управления и обслуживания Ansible, а также интегрирует архитектуру безопасности с нулевым доверием и протокол шифрования MACsec, обеспечивая баланс между стабильностью и безопасностью, адаптируясь к потребностям машинного обучения ИИ и малых и средних обучающих кластеров. В настоящее время Mellanox приобретена NVIDIA, и ее продукция глубоко интегрирована с сетевыми решениями NVIDIA, что позволяет ей совместно работать с NVIDIA Spectrum-X и другими сериями продуктов для дальнейшего повышения эффективности передачи данных в сети ИИ.

● HPE Aruba: Представительным продуктом является коммутатор серии CX 10000 с поддержкой искусственного интеллекта, обладающий функциями оптимизации трафика на основе ИИ и обнаружения аномалий в реальном времени, поддерживающий облачное управление и отличающийся высокой совместимостью с гибридными облачными центрами обработки данных и сценариями использования ИИ.

● Juniper: Представительным продуктом является коммутатор серии EX4400 с поддержкой искусственного интеллекта, обладающий высокой масштабируемостью и низкой задержкой, поддерживающий управление эксплуатацией и техническим обслуживанием на основе ИИ и адаптированный для средних центров обработки данных с поддержкой ИИ.

2. Коммутаторы типа «белый ящик»
Коммутаторы типа «белый ящик» используют принцип разделения аппаратного и программного обеспечения. Аппаратное обеспечение производится ODM-производителями, а программное обеспечение может выбирать между открытыми сетевыми операционными системами (например, SONiC) или корпоративными сетевыми операционными системами от сторонних производителей. Благодаря высокой гибкости и низкой стоимости закупок, они подходят для предприятий с определенными техническими возможностями, стремящихся к экономической эффективности.
Примечание: При выборе коммутаторов «белого ящика» необходимо убедиться, что микросхема ASIC поддерживает интерфейс SAI, и отдавать приоритет производителям, предоставляющим комплексные услуги (таким как Edgecore, Asterfusion, Celestica), чтобы решить проблему раздельного послепродажного обслуживания оборудования и программного обеспечения и улучшить поддержку эксплуатации и технического обслуживания. Например, Asterfusion не только предоставляет оборудование «белого ящика», но и операционную систему AsterNOS на базе SONiC для реализации интегрированных аппаратных и программных услуг.
3. Металлические переключатели
Коммутаторы без предустановленной операционной системы предоставляют только аппаратное обеспечение. Предприятиям необходимо устанавливать сетевые операционные системы с открытым исходным кодом (например, SONiC) или разрабатывать собственные. Благодаря высокой степени кастомизации, они подходят для крупных предприятий (например, сверхкрупных облачных провайдеров) с профессиональными техническими командами и особыми потребностями в настройке.

Примечание: Как правило, коммутаторы без операционной системы (bare-metal switches) не имеют официальной технической поддержки и предъявляют чрезвычайно высокие требования к техническим возможностям предприятия. Необходимо обеспечить наличие полноценной технической команды, способной выполнить установку, настройку и обслуживание операционной системы. FiberMart предлагает разнообразные варианты и ограниченную техническую поддержку для коммутаторов без операционной системы для организаций, которым требуются специальные решения для устранения технических проблем послепродажного обслуживания.
Практический процесс покупки и примечания.
1. Практический процесс покупки в пять этапов
● Уточнение потребностей: Определите масштаб центра обработки данных (количество устройств, масштаб кластера ИИ), потребности в пропускной способности (тип порта, пропускная способность), сценарии использования ИИ (обучение/вывод), возможности эксплуатации и технического обслуживания (размер технической команды) и диапазон бюджета, а также уточните основные требования (например, низкая задержка, высокая избыточность, контроль затрат).
● Определение аппаратной конфигурации: выберите подходящий ASIC-чип, процессор, конфигурацию портов и схему резервирования в соответствии с потребностями, отдайте приоритет низкой задержке и высокой пропускной способности, а также зарезервируйте место для расширения. Например, в сценариях обучения ИИ необходимо сосредоточиться на низкой задержке и высокой пропускной способности, выбрав порты 400GbE/800GbE и микросхемы с большим буфером.
● Выбор операционной системы: Предприятия с развитыми техническими возможностями и стремлением к экономичности могут выбрать систему SONiC с открытым исходным кодом; предприятия с высокими требованиями к стабильности и недостатком технических специалистов могут выбрать NOS с закрытым исходным кодом, разработанную производителями.
● Отбор брендов и продуктов: Сопоставьте бюджет и потребности для отбора подходящих брендов и продуктов, сравните характеристики продукта, цену, техническую поддержку и гарантию послепродажного обслуживания, а также отдайте приоритет зрелым продуктам с хорошей репутацией на рынке и адаптацией к сценариям использования ИИ.
● Тестирование и проверка: Перед закупкой проведите небольшие тесты, чтобы проверить производительность коммутатора (задержка, пропускная способность), совместимость и интеллектуальные функции ИИ, чтобы убедиться, что он соответствует реальным потребностям.

2. Ключевые моменты
● Избегайте избыточной конфигурации: выбирайте конфигурации в соответствии с реальными потребностями, не стремитесь к высокопроизводительному оборудованию вслепую и избегайте ненужных затрат. Например, малым и средним центрам обработки данных для ИИ не обязательно выбирать порты 800GbE; 100GbE/400GbE вполне удовлетворят потребности.
● Уделяйте особое внимание послепродажному и техническому обслуживанию: Эксплуатация и обслуживание коммутаторов для центров обработки данных с использованием искусственного интеллекта — сложный процесс. Необходимо выбирать производителей, которые предоставляют комплексную послепродажную поддержку, долгосрочные обновления прошивки и оперативное реагирование на неисправности, чтобы избежать сбоев в сети из-за недостаточной послепродажной поддержки. Например, следует выбирать производителей, которые предоставляют пятилетнее техническое обслуживание оборудования, чтобы снизить долгосрочные риски эксплуатации и обслуживания.
● Учитывайте будущую масштабируемость: выбирайте коммутаторы с модульной конструкцией и поддержкой расширения архитектуры, чтобы адаптироваться к росту технологий искусственного интеллекта и масштабам центров обработки данных, избегая повторных закупок в краткосрочной перспективе.
● Уделяйте внимание затратам на энергопотребление: В крупных центрах обработки данных энергопотребление коммутаторов является важной статьей эксплуатационных расходов. Отдавайте приоритет энергоэффективным продуктам, чтобы снизить энергопотребление и затраты на тепловыделение.

Заключение
Выбор коммутатора Ethernet для центров обработки данных с поддержкой ИИ заключается в том, чтобы «адаптироваться к потребностям и найти баланс между производительностью и стоимостью». Предприятиям необходимо сначала определить масштабы своего центра обработки данных, потребности в сценариях использования ИИ, а также возможности эксплуатации и обслуживания, а затем провести отбор по трем основным параметрам: оборудование (чип, процессор, порт, резервирование), программное обеспечение (операционная система, функции ИИ, возможности управления) и бренд (стабильность, послепродажное обслуживание), избегая слепого стремления к высокопроизводительным конфигурациям или дешевым продуктам.
Для большинства предприятий брендовые коммутаторы являются более надежным выбором. Среди них продукция таких производителей, как NVIDIA (включая приобретенную ею Mellanox) и Cisco, позволяет найти баланс между стабильностью и технической поддержкой; предприятия с техническими возможностями могут выбрать коммутаторы без предустановленной инфраструктуры (white-box) для снижения затрат; крупные предприятия или компании с потребностями в инди















Еще ни один комментарий не опубликован.