Современный центр обработки данных состоит из множества мозгов искусственного интеллекта, работающих как один
Как я уже упоминал в первой статье этой серии, Проектирование систем для эпохи искусственного интеллекта: центры обработки данных искусственного интеллекта требуют целостного подходацентры обработки данных лежат в основе эпохи искусственного интеллекта. Однако экспоненциальный рост производительности требует целостного подхода к проектированию для преодоления растущих ограничений по мощности и тепловой энергии. Существуют инновации во многих областях, которые помогут решить эту проблему, в том числе в вычислительных архитектурах, памяти, источниках питания, распределении энергии и решениях для охлаждения, но наиболее значительное влияние окажут сети. Повышение производительности сети не только повышает производительность и снижает задержку, но также может изменить характер обработки вычислительных рабочих нагрузок. В связи с этим одной из наиболее важных инноваций, представленных в этом году, стал коммутатор NVLink от Nvidia для эксафлопсной стоечной вычислительной системы GB200 NLV72.
Знакомство с коммутатором NVLink
NVLink Switch — это перекрестная архитектура сетевого коммутатора, которая позволяет всем портам напрямую взаимодействовать с любым другим портом через NVLink — эффективное высокоскоростное вычислительное соединение. Первоначальный коммутатор NVLink был разработан для поддержки неблокируемых двунаправленных каналов связи со скоростью 50 гигабайт в секунду (ГБ/с) на платформе DGX-2. Nvidia продолжает совершенствовать технологии NVLink и NVLink Switch. Для поддержки текущего поколения графических процессоров Blackwell и системы GB200 NLV72 NVLink 5-го поколения обеспечивает скорость 100 ГБ/с на канал. Для графического процессора Blackwell с 18 портами это соответствует пропускной способности 1,8 терабайта в секунду (ТБ/с) на каждый графический процессор. Системная стойка GB200 NVL72 оснащена 18 коммутаторами NVLink, соединяющими 36 процессоров Nvidia Grace и 72 графических процессора Blackwell, что обеспечивает общую неблокирующую пропускную способность системы 130 ТБ/с. Но это еще не все. Возможность использования коммутаторов NVLink для соединения между узлами позволяет масштабировать до 576 графических процессоров.
Конфигурация NVSwitch для стоечной системы GB200 NVL72
Влияние на центр обработки данных
Усовершенствования коммутатора NVLink в сочетании с расширенной конструкцией системы обеспечивают одну из самых плотных конфигураций серверов, что приводит к повышению общей производительности и эффективности работы. Хотя это не позволяет существующему центру обработки данных заменить все стойки в существующем центре обработки данных из-за более высоких требований к мощности и сложной инфраструктуре, в частности жидкостному охлаждению, это позволяет центрам с существующими данными выполнять больше рабочих нагрузок искусственного интеллекта и высокопроизводительных вычислений за один раз. часть времени. космос. Новые центры обработки данных искусственного интеллекта и высокопроизводительных вычислений могут быть спроектированы с учетом пространственной эффективности для уменьшения занимаемой площади или для планирования уникальных требований к инфраструктуре крупномасштабного центра обработки данных.
Потенциальная конфигурация центра обработки данных с использованием стоечных систем GB200 NVL72
Влияние на ИИ
Хотя преимущества для центров обработки данных значительны, реальная ценность заключается в способности удовлетворить постоянно растущие требования рабочих нагрузок искусственного интеллекта и высокопроизводительных вычислений. По данным Nvidia, GB200 NVL72 может поддерживать модели с 27 триллионами параметров, что даже превышает размеры крупнейших на сегодняшний день языковых моделей (LLM) для генеративного ИИ (GenAI), таких как GPT-4 и 4o. Хотя существует тенденция использовать эти большие модели в качестве базовых для разработки более мелких, более оптимизированных моделей, более крупные модели будут продолжать разрабатываться для таких приложений, как научный анализ и исследования общего искусственного интеллекта (AGI). Однако ресурсы GB200 NVL72 также можно анализировать для поддержки нескольких рабочих нагрузок, обеспечивая большую эффективность обучения ИИ и обработки выводов.
Tirias Research продолжит изучать эволюцию системной архитектуры в эпоху искусственного интеллекта и компаний, продвигающих инновации, но не было лучшего места для начала, чем компания, которая находится в центре этой волны инноваций. В то время как Nvidia продолжает внедрять инновации в процессорах, графических процессорах, межсоединениях и системной архитектуре, коммутатор NVLink является важнейшей инновацией, позволяющей масштабировать рабочие нагрузки ИИ и повышать эффективность центров обработки данных, делая ИИ более экономически эффективным.