Text2BIM: мультиагентная платформа на основе LLM, облегчающая выражение проектных замыслов более интуитивно понятным способом.

Информационное моделирование зданий (BIM) — это комплексный метод представления построенных объектов с использованием геометрических и семантических данных. Эти данные могут использоваться на протяжении всего срока службы здания и передаваться в специальных формах заинтересованным сторонам проекта. Сегодняшнее программное обеспечение для информационного моделирования зданий (BIM) учитывает различные потребности проектирования. Благодаря этой единой стратегии программное обеспечение теперь включает в себя множество функций и инструментов, что увеличило сложность пользовательского интерфейса. Преобразование проектных замыслов в сложные потоки команд для создания моделей зданий в программном обеспечении может стать проблемой для проектировщиков, которым часто требуется существенная подготовка, чтобы преодолеть крутую кривую обучения.

Недавние исследования показывают, что большие языковые модели (LLM) можно использовать для автоматического создания элементов стен. Усовершенствованные генеративные 3D-модели, такие как Magic3D и DreamFusion, позволяют дизайнерам передавать свои проектные замыслы на естественном языке, а не с помощью утомительных команд моделирования. Это особенно полезно в таких областях, как виртуальная реальность и разработка игр. Однако эти методы преобразования 3D-текста обычно используют неявные представления, такие как поля нейронного излучения (NeRF) или вокселы, которые содержат только геометрические данные на уровне поверхности и не включают семантическую информацию или не моделируют, какими могут быть 3D-объекты внутри. Эти полностью геометрические 3D-формы трудно интегрировать в процессы архитектурного проектирования на основе BIM из-за несоответствий между собственными моделями BIM и этими моделями. Эти модели сложно использовать в последующих задачах моделирования, анализа и обслуживания зданий из-за отсутствия семантической информации, а также из-за того, что проектировщики не могут напрямую редактировать и изменять контент, созданный с помощью инструментов создания BIM.

Новое исследование исследователей из Технического университета Мюнхена представляет Text2BIM, многоагентную архитектуру, основанную на LLM. Команда использует четырех агентов на базе LLM с конкретными задачами и возможностями, которые общаются друг с другом посредством текстовых сообщений, чтобы воплотить вышеупомянутую основную идею в реальность. Владелец продукта пишет подробные документы с требованиями и совершенствует инструкции по использованию, профессиональный архитектор разрабатывает текстовые планы строительства на основе архитектурных знаний, программист анализирует требования и коды моделирования, а также критический исправляет проблемы в модели, предлагая способы оптимизации кода. Такой совместный подход гарантирует эффективную и результативную реализацию центральной идеи Text2BIM.

ЧИТАТЬ Отдавайте приоритет городским пространствам, ориентированным на человеческие потребности и опыт.

LLM могут естественным образом рассматривать функции созданных вручную инструментов как краткие высокоуровневые API-интерфейсы. Из-за, как правило, низкоуровневого и детального характера собственных API-интерфейсов программного обеспечения для разработки BIM, каждый инструмент инкапсулирует логику для объединения различных вызываемых функций API для выполнения своей задачи. Этот инструмент позволяет точно решать задачи моделирования, избегая при этом сложности и трудоемкости низкоуровневых вызовов API за счет интеграции точных критериев проектирования и инженерной логики. Однако создать универсальный инструментарий для решения различных ситуаций сборки непросто.

Исследователи использовали подходы количественного и качественного анализа, чтобы определить, какие функции инструмента следует интегрировать для решения этой проблемы. Они начали с изучения файлов журналов пользователей, чтобы узнать, какие команды (инструменты) дизайнеры-люди чаще всего используют при работе с программным обеспечением для разработки BIM. Они использовали данные журнала, собранные за один день от 1000 анонимных пользователей программы проектирования Vectorworks по всему миру, которые включали около 25 миллионов записей на семи языках. Пятьдесят наиболее часто используемых команд извлекаются после очистки и фильтрации необработанных данных, что гарантирует, что платформа Text2BIM разработана с учетом потребностей и предпочтений пользователя.

Чтобы облегчить разработку функций инструментов, специфичных для агентов, они опустили команды, в основном управляемые мышью, и выделили оранжевым цветом общие команды моделирования графов, которые можно реализовать через API. Исследователи изучили интегрированный инструмент графического программирования компании Vectorworks — Marionette, который можно сравнить с Dynamo/Grasshopper. Эти системы визуальных сценариев часто предоставляют инкапсулированные версии базовых API, адаптированные к определенным обстоятельствам. Узлы или батареи, с которыми работают проектировщики, обеспечивают более интуитивно понятный интерфейс программирования более высокого уровня. Поставщики программного обеспечения классифицируют узлы по умолчанию в зависимости от их возможностей, чтобы дизайнерам было легче понять и использовать их. Преследуя аналогичную цель, команда использовала эти узлы в категории «BIM», поскольку в этом случае создаются обычные модели BIM.

ЧИТАТЬ Как свадебный организатор выбрал свадебное платье на заказ? «Преувеличенный, мощный и исключительный»

Исследователи смогли создать прототип программного обеспечения на основе интерактивной архитектуры, включив предложенную структуру в Vectorworks, инструмент разработки BIM. Основой для их реализации послужил шаблон плагина веб-палитры с открытым исходным кодом Vectorworks. Используя Vue.js и веб-среду на основе Chromium Embedded Framework (CEF), динамический веб-интерфейс был интегрирован в Vectorworks с использованием современных интерфейсных технологий. Это позволило им создать веб-палитру, простую в использовании и понимании. Логика веб-палитры построена с использованием функций C++, а серверная часть — это приложение C++, которое позволяет определять и предоставлять асинхронные функции JavaScript в веб-инфраструктуре.

Оценка проводится с использованием тестовых подсказок (инструкций) пользователя и сравнения результатов различных ЛЛМ, таких как GPT-4o, Mistral-Large-2 и Gemini-1.5-Pro. Кроме того, способность среды создавать проекты в открытом контексте проверяется путем намеренного исключения определенных конструктивных ограничений из тестовых подсказок. Чтобы учесть случайный характер генеративных моделей, они запускали каждый тестовый вопрос в каждом LLM пять раз, создавая 391 модель IFC (включая промежуточные результаты оптимизации). Результаты показывают, что метод успешно создает хорошо структурированные и логически последовательные модели зданий с абстрактными идеями, указанными пользователем.

Целью этой статьи является создание обычных моделей зданий на начальном этапе проектирования. Создаваемые модели просто включают в себя необходимые структурные элементы, такие как стены, плиты, крыши, двери и окна, а также ориентировочные семантические данные, такие как повествование, местоположение и описание материалов. Эта работа облегчает интуитивное выражение дизайнерского замысла, освобождая дизайнеров от монотонности повторяющихся команд моделирования. Команда считает, что пользователь всегда может вернуться к инструменту создания BIM и изменить сгенерированные модели, соблюдая баланс между автоматизацией и технической автономией.

Откройте для себя Бумага. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Не забудьте подписаться на нас Твиттер и присоединяйтесь к нашему Telegram-канал И LinkedIn Групс. Если вам нравится наша работа, вам понравятся наши бюллетень..

ЧИТАТЬ Британская пара претендует на проектирование центра для посетителей Масаи Мара

Не забудьте присоединиться к нам Более 48 000 субреддитов ML

Ближайшие вебинары по искусственному интеллекту можно найти здесь.

Дханшри Шенвай — инженер по компьютерным наукам с хорошим опытом работы в финтех-компаниях, охватывающем области финансов, карт и платежей и банковского дела, а также большой интерес к приложениям искусственного интеллекта. Она с энтузиазмом относится к изучению новых технологий и достижений в современном развивающемся мире, которые делают жизнь каждого проще.

Text2BIM: мультиагентная платформа на основе LLM, облегчающая выражение проектных замыслов более интуитивно понятным способом.

Source

Text2BIM: мультиагентная платформа на основе LLM, облегчающая выражение проектных замыслов более интуитивно понятным способом.

Похожие записи: