Как я уже упоминал в первой статье этой серии, Проектирование систем для эпохи искусственного интеллекта: центры обработки данных искусственного интеллекта требуют целостного подходацентры обработки данных лежат в основе эпохи искусственного интеллекта. Однако экспоненциальный рост производительности требует целостного подхода к проектированию для преодоления растущих ограничений по мощности и тепловой энергии. Существуют инновации во многих областях, которые помогут решить эту проблему, в том числе в вычислительных архитектурах, памяти, источниках питания, распределении энергии и решениях для охлаждения, но наиболее значительное влияние окажут сети. Повышение производительности сети не только повышает производительность и снижает задержку, но также может изменить характер обработки вычислительных рабочих нагрузок. В связи с этим одной из наиболее важных инноваций, представленных в этом году, стал коммутатор NVLink от Nvidia для эксафлопсной стоечной вычислительной системы GB200 NLV72.
Знакомство с коммутатором NVLink
NVLink Switch — это перекрестная архитектура сетевого коммутатора, которая позволяет всем портам напрямую взаимодействовать с любым другим портом через NVLink — эффективное высокоскоростное вычислительное соединение. Первоначальный коммутатор NVLink был разработан для поддержки неблокируемых двунаправленных каналов связи со скоростью 50 гигабайт в секунду (ГБ/с) на платформе DGX-2. Nvidia продолжает совершенствовать технологии NVLink и NVLink Switch. Для поддержки текущего поколения графических процессоров Blackwell и системы GB200 NLV72 NVLink 5-го поколения обеспечивает скорость 100 ГБ/с на канал. Для графического процессора Blackwell с 18 портами это соответствует пропускной способности 1,8 терабайта в секунду (ТБ/с) на каждый графический процессор. Системная стойка GB200 NVL72 оснащена 18 коммутаторами NVLink, соединяющими 36 процессоров Nvidia Grace и 72 графических процессора Blackwell, что обеспечивает общую неблокирующую пропускную способность системы 130 ТБ/с. Но это еще не все. Возможность использования коммутаторов NVLink для соединения между узлами позволяет масштабировать до 576 графических процессоров.
Влияние на центр обработки данных
Усовершенствования коммутатора NVLink в сочетании с расширенной конструкцией системы обеспечивают одну из самых плотных конфигураций серверов, что приводит к повышению общей производительности и эффективности работы. Хотя это не позволяет существующему центру обработки данных заменить все стойки в существующем центре обработки данных из-за более высоких требований к мощности и сложной инфраструктуре, в частности жидкостному охлаждению, это позволяет центрам с существующими данными выполнять больше рабочих нагрузок искусственного интеллекта и высокопроизводительных вычислений за один раз. часть времени. космос. Новые центры обработки данных искусственного интеллекта и высокопроизводительных вычислений могут быть спроектированы с учетом пространственной эффективности для уменьшения занимаемой площади или для планирования уникальных требований к инфраструктуре крупномасштабного центра обработки данных.
Влияние на ИИ
Хотя преимущества для центров обработки данных значительны, реальная ценность заключается в способности удовлетворить постоянно растущие требования рабочих нагрузок искусственного интеллекта и высокопроизводительных вычислений. По данным Nvidia, GB200 NVL72 может поддерживать модели с 27 триллионами параметров, что даже превышает размеры крупнейших на сегодняшний день языковых моделей (LLM) для генеративного ИИ (GenAI), таких как GPT-4 и 4o. Хотя существует тенденция использовать эти большие модели в качестве базовых для разработки более мелких, более оптимизированных моделей, более крупные модели будут продолжать разрабатываться для таких приложений, как научный анализ и исследования общего искусственного интеллекта (AGI). Однако ресурсы GB200 NVL72 также можно анализировать для поддержки нескольких рабочих нагрузок, обеспечивая большую эффективность обучения ИИ и обработки выводов.
Tirias Research продолжит изучать эволюцию системной архитектуры в эпоху искусственного интеллекта и компаний, продвигающих инновации, но не было лучшего места для начала, чем компания, которая находится в центре этой волны инноваций. В то время как Nvidia продолжает внедрять инновации в процессорах, графических процессорах, межсоединениях и системной архитектуре, коммутатор NVLink является важнейшей инновацией, позволяющей масштабировать рабочие нагрузки ИИ и повышать эффективность центров обработки данных, делая ИИ более экономически эффективным.