Meta MobileLLM совершенствует дизайн LLM для случаев использования на устройствах

Цель мета-исследователей с МобильныйLLM амбициозна: показать, что качество меньших моделей не является прямым продуктом количества миллиардов параметров, которые они имеют; скорее, это результат тщательного проектирования их архитектуры. Чтобы доказать свою точку зрения, они объединили глубокую и детализированную архитектуру со встроенными механизмами совместного использования и обработки массовых запросов, чтобы создать модели с четырьмя параметрами 125M, 350M, 600M и 1B, способные повысить точность по сравнению с предыдущими передовыми моделями.

MobileLLM отходит от общепринятого «закона масштабирования», приписываемого Каплану, который связывает повышение производительности с увеличением количества параметров.

Широко распространенное мнение (Каплан и др., 2020) в этой области предполагает, что производительность моделей преобразователей в первую очередь определяется количеством параметров, размером набора обучающих данных и количеством итераций обучения. […] Наши экспериментальные результаты, особенно для небольших моделей с ограниченной емкостью модели, показывают, что для повышения производительности более важно углубляться, чем углубляться.

Ранее использовался для Meta TinyLlama.Совместное внедрение — это метод повторного использования одних и тех же весов во входных и выходных слоях внедрения, который уменьшает общее количество весов и делает модель меньше. Как объясняют исследователи Meta, этот метод менее эффективен для более крупных моделей, где интеграция входных и выходных данных представляет собой лишь минимальную часть общих параметров (например, 3,7% в LLaMA-70B). Напротив, для модели со 125 миллионами параметров слои интеграции представляют более 20% параметров.

На модели с 30 слоями и 125 миллионами параметров:

Совместное использование входных и выходных внедрений уменьшает количество параметров на 16 миллионов, или примерно на 11,8% от общего числа параметров, при этом средняя точность снижается на 0,2 пункта. Незначительное падение точности можно легко восстановить, переназначив сохраненные параметры и добавив больше слоев.

Еще один метод максимизации использования веса — немедленное распределение веса на блокгде веса реплицируются между соседними блоками. Это приводит к уменьшению задержки без значительного увеличения размера модели и может быть особенно актуально, по словам исследователей, в сценариях, где основным фактором, определяющим задержку модели, является перемещение памяти.

ЧИТАТЬ 59 самых выдающихся творений мира вошли в шорт-лист премии Dezeen Awards 2024

Используя эти и другие методы, MobileLLM стремится определить прочный фундаментальный подход к разработке оптимизированных моделей меньшего размера. Мета-исследователи провели ряд экспериментов, чтобы сравнить MobileLLM с предыдущими современными моделями параметров стоимостью в миллиард долларов по ряду задач, включая безошибочное рассуждение на основе здравого смысла, ответы на вопросы и понимание прочитанного. Например, в рассуждениях с нулевым выстрелом

MobileLLM-LS-125M достигает результатов, сравнимых или превосходящих результаты большинства предыдущих моделей 350M. В категории размеров моделей 350M MobileLLM превосходит предыдущие современные модели с сопоставимыми или меньшими размерами более чем на 4 пункта.

Аналогичные результаты справедливы и в задачах на ответы на вопросы и на понимание прочитанного.

Мета-исследователи говорят, что существует растущая потребность в больших языковых моделях на мобильных устройствах для снижения затрат на облако и задержек. Они также подчеркивают рост потребления энергии и выбросов углекислого газа в более крупных LLM и утверждают, что необходимо уменьшить размер LLM, чтобы сделать их более экологически чистыми. Они говорят, что переход к моделям на устройстве может быть ответом на эти проблемы, одновременно улучшая производительность модели за счет уменьшения задержки.

MobileLLM доступен на Hugging Face.

Source

Meta MobileLLM совершенствует дизайн LLM для случаев использования на устройствах

Похожие записи: