Цель мета-исследователей с МобильныйLLM амбициозна: показать, что качество меньших моделей не является прямым продуктом количества миллиардов параметров, которые они имеют; скорее, это результат тщательного проектирования их архитектуры. Чтобы доказать свою точку зрения, они объединили глубокую и детализированную архитектуру со встроенными механизмами совместного использования и обработки массовых запросов, чтобы создать модели с четырьмя параметрами 125M, 350M, 600M и 1B, способные повысить точность по сравнению с предыдущими передовыми моделями.
MobileLLM отходит от общепринятого «закона масштабирования», приписываемого Каплану, который связывает повышение производительности с увеличением количества параметров.
Широко распространенное мнение (Каплан и др., 2020) в этой области предполагает, что производительность моделей преобразователей в первую очередь определяется количеством параметров, размером набора обучающих данных и количеством итераций обучения. […] Наши экспериментальные результаты, особенно для небольших моделей с ограниченной емкостью модели, показывают, что для повышения производительности более важно углубляться, чем углубляться.
Ранее использовался для Meta TinyLlama.Совместное внедрение — это метод повторного использования одних и тех же весов во входных и выходных слоях внедрения, который уменьшает общее количество весов и делает модель меньше. Как объясняют исследователи Meta, этот метод менее эффективен для более крупных моделей, где интеграция входных и выходных данных представляет собой лишь минимальную часть общих параметров (например, 3,7% в LLaMA-70B). Напротив, для модели со 125 миллионами параметров слои интеграции представляют более 20% параметров.
На модели с 30 слоями и 125 миллионами параметров:
Совместное использование входных и выходных внедрений уменьшает количество параметров на 16 миллионов, или примерно на 11,8% от общего числа параметров, при этом средняя точность снижается на 0,2 пункта. Незначительное падение точности можно легко восстановить, переназначив сохраненные параметры и добавив больше слоев.
Еще один метод максимизации использования веса — немедленное распределение веса на блокгде веса реплицируются между соседними блоками. Это приводит к уменьшению задержки без значительного увеличения размера модели и может быть особенно актуально, по словам исследователей, в сценариях, где основным фактором, определяющим задержку модели, является перемещение памяти.
Используя эти и другие методы, MobileLLM стремится определить прочный фундаментальный подход к разработке оптимизированных моделей меньшего размера. Мета-исследователи провели ряд экспериментов, чтобы сравнить MobileLLM с предыдущими современными моделями параметров стоимостью в миллиард долларов по ряду задач, включая безошибочное рассуждение на основе здравого смысла, ответы на вопросы и понимание прочитанного. Например, в рассуждениях с нулевым выстрелом
MobileLLM-LS-125M достигает результатов, сравнимых или превосходящих результаты большинства предыдущих моделей 350M. В категории размеров моделей 350M MobileLLM превосходит предыдущие современные модели с сопоставимыми или меньшими размерами более чем на 4 пункта.
Аналогичные результаты справедливы и в задачах на ответы на вопросы и на понимание прочитанного.
Мета-исследователи говорят, что существует растущая потребность в больших языковых моделях на мобильных устройствах для снижения затрат на облако и задержек. Они также подчеркивают рост потребления энергии и выбросов углекислого газа в более крупных LLM и утверждают, что необходимо уменьшить размер LLM, чтобы сделать их более экологически чистыми. Они говорят, что переход к моделям на устройстве может быть ответом на эти проблемы, одновременно улучшая производительность модели за счет уменьшения задержки.