Конструктивный недостаток Nvidia, снижающий производительность графического процессора Blackwell, был исправлен несколько месяцев назад, и усовершенствованная версия процессоров B100/B200 вот-вот поступит в массовое производство. Генеральный директор Nvidia Дженсен Хуанг на этой неделе признал, что ошибка была полностью вызвана Nvidia, и сказал, что производственный партнер компании TSMC помог своевременно исправить ее, согласно сообщению Рейтер.
«У нас был недостаток конструкции в Blackwell, он был функционален, но этот недостаток конструкции снижал производительность», — сказал Хуанг. «Это была 100% вина Nvidia».
Когда появились первые сообщения о дефекте конструкции, некоторые СМИ сообщили, что виновата TSMC, и предположили, что это может создать напряженность между Nvidia и ее партнером-производителем. По словам Хуанга, это было не так, и в проблеме виноваты собственные просчеты Nvidia. Хуан также назвал сообщения о напряженных отношениях между двумя компаниями «фейковыми новостями».
Графические процессоры Nvidia Blackwell B100 и B200 соединяют свои два чипсета с помощью технологии упаковки TSMC CoWoS-L, которая опирается на промежуточный преобразователь RDL, оснащенный мостами Local Silicon Interconnect (LSI) (чтобы обеспечить скорость передачи данных около 10 ТБ/с). Расположение этих мостов имеет решающее значение. Однако предполагаемое несоответствие свойств теплового расширения между наборами микросхем графического процессора, мостами LSI, интерпозером RDL и подложкой материнской платы привело к деформации и выходу системы из строя, и Nvidia должна была модифицировать слои Superior Metal и кремниевые выступы графического процессора, чтобы повысить производительность. Хотя компания не раскрыла конкретных подробностей об исправлении, она упомянула, что потребуются новые маски.
Проблемы с производительностью и основные проблемы функциональности (опечатки) не являются редкостью в мире полупроводников. Обычно компании исправляют их, меняя один (или два) слоя металла и называя это новым шагом. Показательный пример: по сообщениям, в Intel Sapphire Rapids было 500 ошибок, и компания выпустила дюжину мер по их исправлению (пять из них были базовыми выпусками). Каждый новый шаг занимает около трех месяцев (включая выявление проблемы, ее устранение и выпуск новой версии чипа), поэтому скорость, с которой Nvidia и TSMC исправили графический процессор Blackwell, весьма впечатляет.
Графические процессоры Blackwell для искусственного интеллекта и суперкомпьютеров с уже исправленными версиями поступят в массовое производство в конце октября и, как ожидается, начнутся поставки в начале следующего года (который по-прежнему будет 2025 финансовым годом для Nvidia).
Тем не менее, ранее в этом году Nvidia сообщила, что для удовлетворения спроса на ее графические процессоры Blackwell среди крупных поставщиков облачных услуг, таких как AWS, Google и Microsoft, ей все равно придется поставить некоторые из первых процессоров Blackwell с низкой эффективностью в 2024 году. Неясно, сколько графических процессоров Blackwell будет отправлено в центры обработки данных в 2024 году.