Fuyu-8B: мультимодальная архитектура для агентов искусственного интеллекта
Новости

Fuyu-8B: мультимодальная архитектура для агентов искусственного интеллекта

17 октября 2023 года — Рохан Бавиши, Эрих Элсен, Кертис Хоторн, Максвелл Най, Огастес Одена, Аруши Сомани, Саннак Ташырлар.

Мы предлагаем Fuyu-8B с открытым исходным кодом – уменьшенную версию мультимодальной модели, которая обеспечивает работу нашего продукта.

Мы выпускаем Fuyu-8B, уменьшенную версию мультимодальной модели1, которая обеспечивает работу нашего продукта. Модель доступна на HuggingFace. Мы считаем, что Fuyu-8B интересен, потому что:

  1. Она имеет гораздо более простую архитектуру и процедуру обучения, чем другие мультимодальные модели, что облегчает ее понимание, масштабирование и развертывание.
  2. Она разработана с нуля для цифровых агентов, поэтому может поддерживать произвольное разрешение изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы пользовательского интерфейса и выполнять детальную локализацию на изображениях экрана.
  3. Это быстро – мы можем получать ответы для больших изображений менее чем за 100 миллисекунд.
  4. Несмотря на то, что она оптимизирована для нашего варианта использования, она хорошо справляется со стандартными тестами понимания изображений, такими как визуальные ответы на вопросы и естественные подписи к изображениям.

Подпись Fuyu:“Торт с надписью “поздравляем Кейт и Люка с вашим предстоящим прибытием”.Вопрос:“Какова самая высокая ожидаемая продолжительность жизни при рождении у мужчин?”Ответ Fuyu:“Ожидаемая продолжительность жизни при рождении мужчин в 2018 году составляет 80,7”

Сегодня мы выпускаем Fuyu-8B с открытой лицензией (CC-BY-NC) — мы рады видеть, что сообщество создает на ее основе! Мы также обсуждаем результаты для Fuyu-Medium (более крупной модели, которую мы не выпускаем) и даем краткий обзор некоторых возможностей, которые являются эксклюзивными для наших внутренних моделей.

Поскольку это версия необработанной модели, мы не добавили дополнительные стратегии настройки инструкций, постобработки или выборки для контроля нежелательных выходных данных. Следует ожидать, что вам придется точно настроить модель для вашего варианта использования.2

Архитектура модели

Adept создает интеллектуального второго пилота для работников умственного труда. Для этого нам важно уметь понимать пользовательский контекст и предпринимать действия от имени пользователей. Обе эти цели в значительной степени зависят от понимания изображения. Пользователи ожидают, что то, что видно на их экране, будет доступно второму пилоту, и важные данные часто представляются наиболее естественным образом в виде изображений – например, диаграмм, слайдов, PDF-файлов и т.д. Чтобы выполнять действия, нам часто нужно буквально нажимать на кнопки или прокручивать меню. Было бы неплохо, если бы все эти действия были выполнимы через API, но многие бизнес-программы не имеют API или имеют неполный API, а управление программным обеспечением через пользовательский интерфейс позволяет нам держать пользователя в курсе событий.

Схема архитектуры модели Fuyu. Fuyu – это ванильный преобразователь только с декодером без специализированного кодировщика изображений. Участки изображения линейно проецируются непосредственно на первый уровень преобразователя, минуя поиск по встраиванию. Эта упрощенная архитектура поддерживает произвольное разрешение изображений и значительно упрощает как обучение, так и вывод.

Поэтому нам нужна модель, способная понимать как изображения, так и текст. Хотя в этом направлении достигнут значительный прогресс, пока нет ничего, что соответствовало бы нашим конкретным потребностям. Существующие мультимодальные модели сложны как с точки зрения архитектуры, так и с точки зрения обучения. Эти сложности являются препятствием, когда дело доходит до понимания поведения модели, масштабирования моделей и развертывания для пользователей.

Что касается архитектуры, то другие мультимодальные модели включают отдельный кодировщик изображений, выход которого обычно подключается к существующему LLM либо через перекрестное внимание, либо через какой-либо адаптер, который подключается непосредственно к пространству встраивания LLM. PALM-ePALI-XQWEN-VLLLaVA 1.5 и Flamingo выглядят более или менее примерно так. Эти модели также, как правило, работают с фиксированным разрешением изображения. Во время вывода все изображения с большим разрешением, чем это, должны быть уменьшены в дискретизации, а все изображения, соотношение сторон которых не соответствует, должны быть дополнены или искажены.

Что касается обучения, то другие мультимодальные модели, как правило, имеют большое количество отдельных этапов обучения. Кодировщик изображений будет обучаться отдельно от LLM для решения своих собственных задач, часто используя контрастную цель обучения, которую сложно реализовать и обосновать. Затем, как, например, в PALI-X, кодировщик изображений и декодер текста (часто с индивидуальной соединительной сетью) будут совместно обучаться на изображениях с низким разрешением в течение некоторого периода времени. На этом этапе необходимо сделать выбор относительно того, следует ли замораживать веса каждого из компонентов во время обучения. Наконец, некоторые модели обучаются с использованием дополнительной фазы изображения с высоким разрешением (без которой они не будут хорошо работать на изображениях с высоким разрешением).

При масштабировании моделей трудно рассуждать о том, как независимо масштабировать каждый из вышеперечисленных компонентов. Следует ли распределять предельные параметры кодеру или декодеру? Какому из этапов обучения мы должны посвятить следующий этап вычислений? Вместо этого мы разработали модель без этих сложностей.

С архитектурной точки зрения Fuyu представляет собой трансформатор только для ванильного декодера с теми же деталями, что и Persimmon-8B – в нем отсутствует кодировщик изображений. Вместо этого участки изображения линейно проецируются на первый уровень transformer, минуя поиск по встраиванию. Мы просто обрабатываем обычный декодер transformer как преобразователь изображений (хотя и без объединения и причинно-следственного внимания). Смотрите диаграмму выше для получения более подробной информации.

Это упрощение позволяет нам поддерживать произвольные разрешения изображений. Для достижения этой цели мы просто обрабатываем последовательность токенов изображения так же, как последовательность текстовых токенов. Мы удаляем привязки к местоположению изображения и вводим столько маркеров изображения, сколько необходимо, в порядке растрового сканирования. Чтобы сообщить модели о разрыве линии, мы просто используем специальный символ перевода строки изображения. Модель может использовать существующие встраивания позиций для определения различных размеров изображений, и мы можем использовать изображения произвольного размера во время обучения, устраняя необходимость в отдельных этапах обучения с высоким и низким разрешением.

В совокупности эти изменения значительно упростили наше обучение и процесс вывода.

Оценка производительности

Для проверки правильности архитектурных изменений, лежащих в основе Fuyu-8B, мы выбрали четыре наиболее часто используемых набора данных для понимания изображений: VQAv2OKVQACOCO Captions и AI2D. VQAv2 и OKVQA – это наборы данных для ответов на естественные изображения, COCO – это набор данных для субтитров, а AI2D – набор данных с множественным выбором, включающий научные диаграммы. Мы сравниваем наши модели с PALM-ePALI-XQWEN-VL и LLaVA 1.5.

Цифры

Модели Fuyu хорошо работают в соответствии с этими показателями, даже несмотря на то, что они в значительной степени ориентированы на естественные изображения. Fuyu-8B превосходит QWEN-VL и PALM-e-12B по 2 из 3 показателей, несмотря на то, что имеет на 2B и 4B меньше параметров соответственно. Fuyu-Medium работает сравнимо с PALM-E-562B, несмотря на то, что имеет в десять раз меньше параметров! PALI-X по-прежнему лучше всего справляется с этими тестами, но он больше и настраивается индивидуально для каждой задачи. Обратите внимание, что, поскольку эти тесты не являются нашей основной задачей, мы не выполняли ни одной из типичных оптимизаций (например, нежадная выборка, длительная настройка для каждого конкретного набора данных и т.д.).

Задача оценкиFuyu-8BFuyu-MediumLLaVA 1.5 (13.5B)QWEN-VL (10B)PALI-X (55B)PALM-e-12BPALM-e-562B
VQAv274.277.48079.586.176.280.0
OKVQA60.663.1n/a58.666.155.566.1
Подписи к COCO141138n/an/a149135138
AI2D64.573.7n/a62.381.2n/an/a

Что это за критерии понимания изображений?

При взаимодействии с этими бенчмарками мы также заметили серьезные проблемы. Мы разработали собственный пакет eval, который более точно соответствует интересующим нас возможностям, но мы подумали, что стоит подробнее остановиться на некоторых из этих вопросов здесь, учитывая повсеместность этих тестов.

Тесты для ответов на вопросы

Наборы данных для ответов на вопросы довольно несовершенны – они используют сложный механизм подсчета очков, требуют, чтобы вы отвечали в определенном формате, и часто снабжены неправильными комментариями.

Рассмотрим следующие два изображения:

OKVQAВопрос:“На каком инструменте играет игрушечный медведь?”Ответ Fuyu:“ловушка”Оценка OKVQA:0 

(все справочные ответы просто “барабанные”)VQAv2

Вопрос:“Какие продукты представлены на изображении?”

Ответ Fuyu:“рыба, морковь”Оценка по VQAv2:0 

(эталонными ответами были “хот-доги”, “сосиски” и “полезные для здоровья”)

Что касается изображения слева из набора данных OKVQA, то на вопрос “На каком инструменте играет игрушечный медведь?” модель отвечает “ловушка” — что, безусловно, верно! Тем не менее, он получает оценку 0, потому что все эталонные ответы просто “барабанные”. Аналогично, для изображения VQAv2 справа на вопрос “Какие продукты представлены на изображении?” модель точно отвечает “рыба, морковь”, но также получает оценку 0, поскольку список эталонных решений не содержит этих слов.

Контрольные показатели субтитров

Также обычно оценивают модели изображений с помощью бенчмарка COCO Captions. Оценка, используемая для этого бенчмарка (CIDEr), основана на n-граммовом сходстве с группой эталонных подписей, которые часто являются плохими. Мы не обнаружили, что производительность этого бенчмарка особенно хорошо соответствует нашим внутренним оценкам. На самом деле Fuyu-Medium немного хуже по этому показателю, чем Fuyu-8B!

К изображению ниже наша модель снабжена подписью “Ночной вид на Биг-Бен и здания парламента”. Это правильно, но оно получает оценку 0,4, потому что не соответствует ни одному из заголовков ссылок (хороший балл – более 100).

Подпись Fuyu:“Ночной вид на Биг Бен и здания парламента”.Ссылочные подписи:“Быстро движущееся изображение автомобилей на оживленной улице с башенными часами на заднем плане”.“Освещенный ночной трафик увеличивается на башню с часами”.“Городское здание ярко освещено, и мимо проезжает много транспортных средств”.“Большая башня с часами и движущийся рядом транспорт”.“там есть большая башня с часами на ней”.Оценка СИДРа:0.4 (В ссылочной подписи Биг Бен или парламент не упоминаются)

Возможности

Модели Fuyu обладают несколькими интересными возможностями, которые мы представляем здесь, включая диаграммы и понимание документов.

Понимание диаграммы

Поскольку наш продукт ориентирован на оказание помощи работникам умственного труда, важно, чтобы наша модель могла понимать диаграммы. Вот несколько примеров.

Fuyu может понимать сложные визуальные взаимосвязи, такие как на приведенной ниже диаграмме, где он должен отслеживать связи между актерами и шоу и подсчитывать их, чтобы ответить на вопрос.

Вопрос:“Эйдан Гиллен снялся в скольких сериях?”Ответ Fuyu:“2”

Она также может отвечать на нетривиальные вопросы с несколькими переходами по традиционным графикам.

Вопрос:“Найти недостающие данные последовательности 24, _ ,32, 33, 42?”Ответ Fuyu:“29”

Вопрос:“Сколько дней оплачиваемого отпуска было в Великобритании?”

Ответ Fuyu:“28”

Понимание документа

Fuyu также может понимать документы — как сложную инфографику, так и старые PDF-файлы:

Вопрос:“Какое метро в Калифорнии имеет хорошие перспективы трудоустройства?”Ответ Fuyu:“Лос-Анджелес”

Вопрос:“Какова была пропускная способность упаковщика?”

Ответ Fuyu:“118 пакетов”.

Понимание схемы

Наконец, модель может понимать сложные реляционные запросы к научным диаграммам:

Вопрос:“На какую букву похоже килевидное поперечное сечение?”Ответ Fuyu:“Буква V”

Вопрос:“Если в пищевой сети, показанной на диаграмме, отсутствуют иголки ели Дугласа, какой организм будет голодать?”

Ответ Fuyu:“Красная древесная полевка”

Новые возможности на первый взгляд

Наши внутренние модели (на основе Fuyu) обладают дополнительными возможностями, связанными с нашим продуктом. В частности,

  1. Они могут надежно выполнять распознавание изображений с высоким разрешением
  2. Они могут выполнять детальную локализацию текста и элементов пользовательского интерфейса внутри этих изображений
  3. Они могут отвечать на вопросы об изображениях пользовательских интерфейсов

Поскольку эти возможности основаны на классе моделей Fuyu (и лежат в основе нашего предстоящего выпуска продукта), мы подумали, что было бы интересно ознакомиться с некоторыми из них.

Возможности распознавания текста

Мы обучили наши внутренние модели выполнять следующие две задачи, учитывая изображение пользовательского интерфейса:

  1. Учитывая ограничивающую рамку, скажите нам, какой текст находится внутри этой ограничивающей рамки (bbox_to_text)
  2. Учитывая некоторый текст, верните нам ограничивающую рамку, содержащую этот текст (text_to_bbox)

Рассмотрим следующее изображение с разрешением 1920х1080 из одного из наших наборов для проверки:

Синие прямоугольники представляют координаты ограничивающей рамки, которые были переданы модели для bbox_to_text задачи. В этом примере модель правильно предсказала текстовое содержимое каждой синей ограничивающей рамки.

Красные прямоугольники представляют прогнозируемые ограничивающие рамки, а зеленые – целевые ограничивающие рамки для text_to_bbox задачи. Модель достаточно хороша в прогнозировании ограничивающих рамок, так что красные и зеленые прямоугольники почти полностью перекрываются.

Возможности локализации и контроля качества

Модель также может определять местоположение объектов на экране на основе неформальных текстовых команд, а также отвечать на подробные фактические вопросы о содержимом пользовательских интерфейсов:

Вопрос:“помечено ли 2-е электронное письмо звездочкой? [‘да’, ‘нет’]”Ответ Fuyu:“нет”

Или рассмотрим приведенный ниже пример, где модель может взаимодействовать с Google Maps, чтобы правильно ответить на 3 вопроса.

Вопрос:“находится ли Ла-Такерия к северу от станции 24-й миссии St Bart?”Ответ Fuyu:“нет”

Вес модели и некоторые примеры кода представлены на HuggingFace. Мы с нетерпением ждем возможности увидеть, что вы создадите с ее помощью, и, пожалуйста, свяжитесь с нами, если у вас возникнут какие-либо вопросы. Следите за обновлениями, чтобы узнать больше о нашем продукте alpha, который будет включать эти и другие изменения и скоро появится!

Цитирование

Если вы используете эту модель в своей работе, пожалуйста, используйте следующую цитату из BibTeX:

@misc{fuyu-8b,
  author = {Bavishi, Rohan and Elsen, Erich and Hawthorne, Curtis and Nye, Maxwell and Odena, Augustus and Somani, Arushi and  Ta\c{s}\i{}rlar, Sa\u{g}nak},
  title = {Introducing our Multimodal Models},
  url = {https://www.adept.ai/blog/fuyu-8b},
  year = {2023}
}

Примечания

  1. Под “мультимодальной моделью” мы подразумеваем нейронную сеть, которая изначально может видеть и понимать как изображения, так и текст. 
  2. Впрочем, следите за обновлениями, чтобы узнать больше об этом. 
  3. Примечательно, что в этом случае нет DOM, на который можно положиться, потому что вся карта отображается в canvas теге HTML страницы. 
Hi, I’m admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *