Узнайте больше о том, как мы продвигаемся к выполнению наших обязательств в области устойчивого развития, в первой части этого блога: Устойчивый дизайн: инновации для энергоэффективности с помощью искусственного интеллекта, часть 1.
Продолжая выполнять свои обязательства перед нашими клиентами в области облачных технологий и инноваций в области искусственного интеллекта, мы остаемся непоколебимыми в своем стремлении к повышению устойчивости. Важнейшей частью достижения цели нашей компании по достижению углеродно-нейтрального уровня к 2030 году является переосмысление нашей облачной инфраструктуры и инфраструктуры искусственного интеллекта с уделением первостепенного внимания энергопотреблению и энергоэффективности.
Мы преследуем нашу цель углеродной нейтральности, опираясь на три основных направления: сокращение выбросов углекислого газа, безуглеродное электричество и удаление углерода. В рамках направления сокращения выбросов углекислого газа энергоэффективность и энергоэффективность имеют основополагающее значение для прогресса в области устойчивого развития как для нашего бизнеса, так и для отрасли в целом.
- Узнайте, как мы повышаем устойчивость ИИ
- Телеметрия мощности на уровне микросхем для получения точных данных об использовании в режиме реального времени.
- Совместно работайте над развитием отраслевых стандартов для форматов данных ИИ.
- Повышение эффективности вывода LLM с помощью разделения фаз
- Узнайте больше и изучите ресурсы для повышения эффективности ИИ
Узнайте, как мы повышаем устойчивость ИИ
Откройте для себя три области нашей деятельности
Хотя термины «мощность» и «энергия» обычно используются как взаимозаменяемые, энергоэффективность связана с управлением пиками потребления энергии, тогда как энергоэффективность связана с сокращением общего количества энергии, потребляемой с течением времени.
Это различие становится важным для специфики исследований и приложений из-за типа эффективности, который вы можете рассмотреть в качестве примера энергоэффективности. малые языковые модели (SLM) с меньшим количеством настроек, которые можно запускать локально на вашем телефоне, используя меньшую общую вычислительную мощность. Чтобы повысить энергоэффективность, вы можете искать способы улучшить использование доступной энергии путем улучшения прогнозирования требований к рабочей нагрузке.
От центров обработки данных до серверов и кремния, а также кода, алгоритмов и моделей — повышение эффективности гипермасштабируемой облачной инфраструктуры и системы искусственного интеллекта сводится к оптимизации эффективности каждой части системы и ее работы в целом. За прошедшие годы наши исследовательские группы добились многих успехов в повышении эффективности, поскольку мы стремимся исследовать смелые новые идеи и вносить вклад в мировое исследовательское сообщество. В этом блоге я хотел бы поделиться некоторыми примерами того, как мы переносим многообещающие исследования эффективности из лабораторий в коммерческие операции.
Телеметрия мощности на уровне микросхем для получения точных данных об использовании в режиме реального времени.
Мы добились прорыва в обеспечении телеметрии электропитания вплоть до уровня кремния, обеспечивая новый уровень точности управления электропитанием. Встроенная телеметрия мощности использует встроенное ПО, которое помогает нам понять профиль мощности рабочей нагрузки, сохраняя при этом конфиденциальность рабочей нагрузки и данных клиентов. Это информирует программное обеспечение управления, которое предоставляет услуги управления воздушным движением в центре обработки данных, распределяя рабочие нагрузки на наиболее подходящие серверы, процессоры и ресурсы хранения для максимизации эффективности.
Совместно работайте над развитием отраслевых стандартов для форматов данных ИИ.
Внутри кремния алгоритмы решают проблемы, беря некоторые входные данные, обрабатывая эти данные посредством ряда определенных шагов и выдавая результат. Большие языковые модели (LLM) обучаются с использованием алгоритмов машинного обучения, которые обрабатывают большие объемы данных для изучения шаблонов, отношений и структур языка.
Упрощенный пример Microsoft Copilot: Представьте, что вы учите ребенка писать рассказы. Алгоритмы обучения подобны урокам и упражнениям, которые вы даете ребенку. Архитектура модели — это мозг ребенка, структурированный так, чтобы понимать и создавать истории. Алгоритмы вывода — это мыслительный процесс ребенка при написании нового рассказа, а алгоритмы рейтинга — это оценки или отзывы, которые вы даете, чтобы улучшить его письмо.1
Один из способов повысить эффективность алгоритмов — снизить точность форматов данных с плавающей запятой, которые представляют собой специализированные числовые представления, используемые для эффективной обработки действительных чисел. Вместе с проектом Open Compute Project мы сотрудничали с другими лидерами отрасли, чтобы сформировать Альянс микромасштабных форматов (MX) с целью создания и стандартизации 6- и 4-битных типов данных следующего поколения для обучения и вывода ИИ.
Более узкие форм-факторы позволяют кремнию выполнять более эффективные вычисления искусственного интеллекта за такт, ускоряя обучение модели и время вывода. Эти модели занимают меньше места, а значит, требуют меньшего количества выборок данных из памяти и могут работать с большей производительностью и эффективностью. Кроме того, использование меньшего количества битов позволяет передавать меньше данных по межсоединению, что может повысить производительность приложений или снизить сетевые затраты.
Повышение эффективности вывода LLM с помощью разделения фаз
Исследование также показывает перспективность новых подходов к выводу моделей большого языка (LLM), по существу разделяя две фазы вывода LLM на отдельных машинах, каждая из которых хорошо подходит для этой конкретной фазы. Учитывая различия в требованиях к фазовым ресурсам, некоторые машины могут занижать частоту своих ускорителей искусственного интеллекта или даже использовать ускорители предыдущего поколения. По сравнению с существующими конструкциями этот метод может обеспечить в 2,35 раза большую пропускную способность при тех же затратах мощности и стоимости.2
Узнайте больше и изучите ресурсы для повышения эффективности ИИ
Помимо переосмысления наших собственных операций, мы стремимся предоставить разработчикам и специалистам по обработке данных возможность создавать и оптимизировать модели ИИ, которые могут достигать аналогичных результатов, требуя при этом меньше ресурсов. Как упоминалось ранее, малые языковые модели (SLM) могут быть более эффективной альтернативой большим языковым моделям (LLM) во многих случаях использования, например, для точной настройки экспериментов над различными задачами или даже математических задач в начальной школе.
В апреле 2024 г. мы анонсировали Фи-3семейство открытых, высокопроизводительных и экономичных SLM, которые превосходят модели того же или большего размера в различных языковых, логических, программных и математических тестах. Этот выпуск расширяет выбор высококачественных моделей для клиентов, предоставляя практический выбор для составления и создания генеративных приложений искусственного интеллекта. Затем мы представили новые модели семейства Phiвключая Phi-3.5-MoE, модель «Смесь экспертов», объединяющую 16 небольших экспертов в одного, и Phi-35-mini. Обе эти модели многоязычны и поддерживают более 20 языков.
Узнайте больше о том, как мы продвигаем устойчивое развитие, из нашей серии блогов Sustainable by design, начиная с Устойчивость по замыслу: продвижение устойчивости ИИ.
1Отрывок из запроса второго пилота: Пожалуйста, объясните, как алгоритмы связаны с LLM.
2Разделение: эффективный генеративный вывод LLM с использованием разделения фаз, Microsoft Research.