В эпоху цифровой революции искусственный интеллект (ИИ) превратился в одну из самых мощных сил, формирующих наше будущее. Среди множества достижений ИИ, языковые модели с открытым исходным кодом занимают особое место, предлагая невероятные возможности для исследователей, разработчиков и коммерческих организаций по всему миру. Эти модели открывают двери к новым горизонтам инноваций, делая передовые технологии доступными для более широкой аудитории и ускоряя прогресс в области обработки естественного языка (NLP).
В нашем обзоре мы представляем лучшие языковые модели с открытым исходным кодом, способные к коммерческому использованию. От Llama 2 от Meta (запрещенная в РФ) с её масштабируемыми до 70 миллиардов параметров версиями, до проектов, таких как Falcon от Института технологических инноваций Абу-Даби, Dolly 2.0 от Databricks, и MPT от MosaicML, каждая из этих моделей представляет собой уникальное сочетание инноваций и исследовательских достижений.
Мы также рассматриваем разработки Google, EleutherAI, Meta (запрещенная в РФ) и других лидеров отрасли, которые представили свои вклады в развитие ИИ, такие как FLAN – T5, GPT-NeoX-20B, BERT и многие другие. Эти проекты не только демонстрируют потенциал языковых моделей в решении разнообразных задач NLP, но и подчеркивают важность открытого исходного кода в продвижении коллективного знания и инноваций.
Например, проект BLOOM от BigScience выделяется своей мультиязычной поддержкой, предоставляя возможности для обработки текстов на 46 естественных языках и 13 языках программирования. А Baichuan 2 от Baichuan Intelligence Inc. устанавливает новые стандарты производительности, демонстрируя впечатляющие результаты на китайском и английском языках.
Каждая из этих моделей представляет собой значительный вклад в развитие искусственного интеллекта, предлагая уникальные возможности для исследований и коммерческого использования. Вместе они формируют мощную экосистему, способствующую демократизации доступа к передовым технологиям ИИ и ускорению инноваций во всем мире.
Ниже приведены лучшие языковые модели с открытым исходным кодом, доступные для коммерческого использования.
- Llama – 2
Meta (запрещенная в РФ) выпустила Llama 2, набор предварительно обученных и усовершенствованных LLM, а также Llama 2-Chat, версию Llama 2. Эти модели масштабируются до 70 миллиардов параметров. После тщательного тестирования тестов, ориентированных на безопасность и полезность, было обнаружено, что модели Llama 2-Chat в большинстве случаев работают лучше, чем текущие модели с открытым исходным кодом. Оценки персонала показали, что они хорошо согласуются с несколькими моделями с закрытым исходным кодом.
Исследователи даже предприняли несколько шагов, чтобы гарантировать безопасность этих моделей. Это включает в себя аннотирование данных, особенно для обеспечения безопасности, проведение повторных командных тренировок, точную настройку моделей с акцентом на вопросы безопасности, а также итеративный и непрерывный анализ моделей.
Также были выпущены варианты Llama 2 с 7 миллиардами, 13 миллиардами и 70 миллиардами параметров. Llama 2-Чат, оптимизированный для сценариев диалога, также был выпущен в вариантах с теми же масштабами параметров.
Проект: https://huggingface.co/meta-llama
Документ: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models /
- Falcon
Исследователи из Института технологических инноваций Абу-Даби представили серию Falcon, в которую входят модели с 7 миллиардами, 40 миллиардами и 180 миллиардами параметров. Эти модели, предназначенные только для каузального декодера, были обучены на высококачественном разнообразном корпусе, который в основном был получен из онлайн-данных. Falcon-180B, самая большая модель в серии, является единственным общедоступным предварительным обучением, которое когда-либо проводилось на наборе данных из более чем 3,5 триллионов текстовых токенов.
Исследователи обнаружили, что Falcon-180B значительно превосходит другие модели, включая PaLM или Chinchilla. Он превосходит модели, которые разрабатываются одновременно, такие как LLaMA 2 или Inflection-1. Falcon-180B достигает производительности, близкой к PaLM-2-Large, что примечательно, учитывая его более низкие затраты на предварительную подготовку и вывод данных. В этом рейтинге Falcon-180B присоединяется к GPT-4 и PaLM-2-Large в качестве ведущих языковых моделей в мире.
Проект: https://huggingface.co/tiiuae/falcon-180B
Проект: https://arxiv.org/pdf/2311.16867.pdf
- Dolly 2.0
Исследователи из Databricks создали LLM Dolly-v2-12b, который был разработан для коммерческого использования и был создан на платформе машинного обучения Databricks. На основе pythia-12b в качестве основы обучается с использованием примерно 15 000 пар команд / ответов (названных databricks-dolly-15k), которые были созданы сотрудниками Databricks. Несколько областей возможностей, охватываемых этими парами инструкций / ответов, включают мозговой штурм, классификацию, ответы на закрытые вопросы, генерацию, извлечение информации, ответы на открытые вопросы и обобщение, как указано в документе InstructGPT.
Dolly-v2 также доступен в моделях меньшего размера для различных вариантов использования. Dolly-v2-7b имеет 6,9 миллиарда параметров и основана на pythia-6.9b.
Dolly-v2-3b имеет 2,8 миллиарда параметров и основана на pythia-2.8b.
Проект HF: https://huggingface.co/databricks/dolly-v2-12b
Github: https://github.com/databrickslabs/dolly#getting-started-with-response-generation
- MPT
Языковые модели на основе Transformer достигли большого прогресса с выпуском MPT-7B от MosaicML. MPT-7B был обучен с самого начала и был представлен огромному корпусу из 1 триллиона токенов, который включает как текст, так и код.
Эффективность, с которой был обучен MPT-7B, поражает. Всего за 9,5 дней был завершен полный процесс обучения, который проводился без какого-либо участия человека. Обучение MPT – 7 B было проведено по исключительно низкой цене, учитывая объем и сложность задания. Процедура обучения, в которой использовалась передовая инфраструктура MosaicML, стоила около 200 000 долларов.
Проект HF: https://huggingface.co/mosaicml/mpt-7b
Github: https://github.com/mosaicml/llm-foundry /
- FLAN – T5
Google представила FLAN – T5, улучшенную версию T5, которая была доработана для решения различных задач. Контрольные точки Flan-T5 демонстрируют надежную работу с несколькими кадрами даже по сравнению со значительно более крупными моделями, такими как PaLM 62B. В FLAN – T5 команда обсудила тонкую настройку инструкций как универсальный подход к повышению производительности языковой модели в различных задачах и показателей оценки.
Проект HF: https://huggingface.co/google/flan-t5-base
Документ: https://arxiv.org/pdf/2210.11416.pdf
- GPT-NeoX-20B
Компания EleutherAI представила GPT-NeoX-20B, огромную авторегрессионную языковую модель с 20 миллиардами параметров. Производительность GPT-NeoX-20B оценивается при выполнении различных задач, которые включают навыки, основанные на знаниях, математическое мышление и понимание языка.
Ключевой вывод оценки заключается в том, что GPT-NeoX-20B превосходно работает как аналитик с несколькими аргументами, даже когда предоставляется очень мало информации. GPT-NeoX-20B работает заметно лучше, чем устройства сопоставимого размера, такие как GPT-3 и FairSeq, особенно при оценке с пятью кадрами.
Проект HF: https://huggingface.co/EleutherAI/gpt-neox-20b
Документ: https://arxiv.org/pdf/2204.06745.pdf
- Открытые предварительно обученные преобразователи (OPT)
Поскольку модели LLM часто обучаются в течение сотен тысяч вычислительных дней, им обычно требуются значительные вычислительные ресурсы. Это чрезвычайно затрудняет репликацию для исследователей, которым не хватает существенного финансирования. Полный доступ к весам моделей часто ограничен, что препятствует углубленному исследованию и анализу, даже в тех случаях, когда эти модели доступны через API.
Для решения этих проблем исследователи Meta (запрещенная в РФ) представили Open Pre-trained Transformers (OPT), набор предварительно обученных преобразователей, которые ограничены декодерами и охватывают широкий диапазон значений параметров, от 125 миллионов до 175 миллиардов. Основная цель OPT – демократизировать доступ к передовым языковым моделям, сделав эти модели полностью и этично доступными для ученых.
OPT-175B, флагманская модель в наборе OPT suite, как показали исследователи, работает аналогично GPT-3. Но что действительно отличает OPT-175B, так это то, что по сравнению с обычными методами обучения на крупномасштабных языковых моделях, для его разработки требуется всего 1/7 воздействия на окружающую среду.
Проект HF: https://huggingface.co/facebook/opt-350m
Документ: https://arxiv.org/pdf/2205.01068.pdf
- BLOOM
Исследователи из BigScience разработали BLOOM, языковую модель с открытым доступом, насчитывающую 176 миллиардов параметров. Поскольку BLOOM – это модель языка-трансформера, работающая только с декодером, она особенно хороша при создании текстовых последовательностей в ответ на входные сигналы. Учебным полигоном послужил ROOTS corpus, обширный набор данных с контентом из сотен источников, охватывающий 46 естественных языков и 13 языков программирования, в общей сложности 59 языков. Благодаря большому объему обучающих данных BLOOM способен понимать и воспроизводить текст в различных лингвистических контекстах.
Документ: https://arxiv.org/pdf/2211.05100.pdf
Проект HF: https://huggingface.co/bigscience/bloom
- Baichuan
Самая последняя версия обширных языковых моделей с открытым исходным кодом, созданных Baichuan Intelligence Inc., называется Baichuan 2. Благодаря тщательно подобранному корпусу из 2,6 трлн токенов, эта сложная модель обучена улавливать широкий спектр лингвистических нюансов и шаблонов. Примечательно, что Baichuan 2 установил новые нормы для моделей аналогичного размера, продемонстрировав исключительную производительность в заслуживающих доверия тестах как на китайском, так и на английском языках.
Baichuan 2 была выпущена в различных версиях, каждая из которых предназначена для конкретного варианта использования. Варианты предлагаются в комбинациях параметров от 7 миллиардов до 13 миллиардов для базовой модели. Baichuan 2 предоставляет модели чатов в соответствующих вариантах с 7 миллиардами и 13 миллиардами параметров, которые адаптированы к настройкам диалога. Кроме того, для повышения эффективности предлагается 4-разрядная квантованная версия модели чата, которая снижает потребности в обработке без ущерба для производительности.
Проект HF:https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat#Introduction
- BERT
Google представила BERT (представления двунаправленных кодеров от Transformers). BERT специально разработан для предварительной подготовки глубоких двунаправленных представлений из немаркированного текста, в отличие от более ранних языковых моделей. Это означает, что BERT может более глубоко понимать лингвистические нюансы, поскольку одновременно учитывает левый и правый контекст на каждом уровне своей архитектуры.
Концептуальная простота BERT и исключительная эмпирическая мощь – два его основных преимущества. Он приобретает широкие возможности контекстуального встраивания благодаря обширному предварительному обучению текстовым данным, которые могут быть доработаны без особых усилий для создания высокоэффективных моделей для широкого спектра приложений обработки естественного языка. Обычно для этого процесса тонкой настройки достаточно добавить всего один дополнительный уровень вывода, что делает BERT чрезвычайно гибким и адаптируемым к широкому спектру приложений, не требуя значительных изменений архитектуры в зависимости от конкретной задачи.
BERT хорошо справляется с одиннадцатью различными задачами обработки естественного языка. Он демонстрирует заметный прирост производительности при составлении ответов на вопросы, точности множественных ответов и общего показателя. В качестве примера, BERT увеличивает показатель GLUE до 80,5%, что является значительным улучшением на 7,7% в абсолютном выражении.
Github: https://github.com/google-research/bert
Документ: https://arxiv.org/pdf/1810.04805.pdf
Проект HF: https://huggingface.co/google-bert/bert-base-cased
- Викуна
Компания LMSYS представила Vicuna-13B, чат-бота с открытым исходным кодом, который был создан на основе общих разговоров пользователей, собранных на ShareGPT, для точной настройки модели LLaMA. Vicuna-13B предлагает потребителям превосходные возможности общения и является большим скачком в технологии чат-ботов.
При первоначальной оценке производительность Vicuna-13B оценивалась с использованием GPT-4. Результаты оценки показали, что Vicuna-13B превосходит другие известные модели чат-ботов, такие как OpenAI ChatGPT и Google Bard, с уровнем качества, превышающим 90%. Vicuna-13B более чем в 90% случаев обеспечивает лучшую производительность и более эффективен в получении высококачественных ответов, чем другие модели, такие как LLaMA и Stanford Alpaca. Vicuna-13B – отличное устройство с точки зрения экономической эффективности. Vicuna-13B можно разработать примерно за 300 долларов на обучение, что делает его экономичным решением.
Проект HF: https://huggingface.co/lmsys/vicuna-13b-delta-v1.1
- Mistral
Mistral 7B v0.1 – это передовая языковая модель с 7 миллиардами параметров, разработанная для обеспечения замечательной эффективности. Mistral 7B бьет все предыдущие рекорды, превосходя Llama 2 13B во всех бенчмарках и даже Llama 1 34B в таких важных областях, как логика, математика и кодирование.
Для ускорения вывода использовались такие современные методы, как внимание к группированному запросу (GQA) и внимание к скользящему окну (SWA), позволяющие эффективно обрабатывать последовательности различной длины при одновременном снижении вычислительных затрат. Также была предоставлена индивидуальная версия Mistral 7B — Instruct, оптимизированная для исключительно эффективной работы при выполнении действий, требующих следования инструкциям.
Проект HF: https://huggingface.co/mistralai/Mistral-7B-v0.1
Документ: https://arxiv.org/pdf/2310.06825.pdf
- Gemma
Gemma – это серия современных открытых моделей, созданных Google с использованием тех же технологий и исследований, что и модели Gemini. Эти англоязычные модели больших языков, предназначенные только для декодирования, получившие название Gemma, предназначены для приложений преобразования текста в текст. Они имеют три разновидности: настраиваемые по инструкции, предварительно обученные и взвешенные по открытости. Модели Gemma исключительно хорошо справляются с различными задачами создания текстов, такими как подведение итогов, аргументация и ответы на вопросы.
Gemma уникальна тем, что она легкая, что делает ее идеальной для развертывания в условиях ограниченных ресурсов, таких как настольные компьютеры, ноутбуки или инфраструктура персонального облака.
Проект HF: https://huggingface.co/google/gemma-2b-it
- Phi-2
Microsoft представила Phi-2, которая представляет собой модель-трансформер с 2,7 миллиардами параметров. Она была обучена с использованием комбинации источников данных, аналогичных Phi-1.5. В него также интегрирован новый источник данных, состоящий из синтетических текстов по НЛП и отфильтрованных веб-сайтов, которые считаются обучающими и безопасными. Сравнение Phi-2 с тестами, измеряющими логическое мышление, понимание языка и здравый смысл, показало, что он работает почти на самом современном уровне среди моделей с менее чем 13 миллиардами параметров.
Проект HF: https://huggingface.co/microsoft/phi-2
- StarCoder2
StarCoder2 был представлен проектом BigCode; совместная работа, направленная на добросовестное создание больших языковых моделей для кода (Code LLM). Stack v2 основан на архиве исходного кода digital commons of Software Heritage (SWH), который охватывает 619 компьютерных языков. Тщательно подобранный набор дополнительных высококачественных источников данных, таких как документация по коду, записные книжки Kaggle и запросы на извлечение с GitHub, делает набор обучающих данных в четыре раза больше, чем исходный набор данных StarCoder.
Модели StarCoder2 с параметрами 3B, 7B и 15B тщательно тестируются на обширной коллекции тестов Code LLM после обучения на 3,3-4,3 трлн токенов. Результаты показывают, что StarCoder2-3B работает лучше в большинстве тестов, чем LLM с кодом аналогичного размера, и даже превосходит StarCoderBase-15B. StarCoder2-15B работает наравне с CodeLlama-34B или лучше, чем модель вдвое большего размера, и значительно превосходит устройства аналогичного размера.
Статья: https://arxiv.org/abs/2402.19173
Проект HF: https://huggingface.co/bigcode
- Mixtral
Mistral AI выпустила Mixtral 8x7B, редкую смесь экспертных моделей (SMoE) с открытыми весами и лицензией Apache 2.0. Mixtral выделяется тем, что обеспечивает в шесть раз более высокую скорость вывода и превосходит Llama 2 70B в большинстве тестов. Это лучшее соотношение цены и производительности в отрасли и лучшая модель с открытым исходным кодом и разрешительной лицензией. Mixtral превосходит GPT3.5 по множеству распространенных тестов, подтверждая свою репутацию лучшей модели в данной области.
Mixtral поддерживает английский, французский, итальянский, немецкий и испанский языки и с легкостью обрабатывает контексты объемом до 32 тыс. токенов. Его полезность еще больше возрастает за счет того, что он демонстрирует отличные навыки в работе с генерацией кода. Mixtral также может быть оптимизирован для использования в качестве модели следования инструкциям, о чем свидетельствует его высокий балл бенч-тестирования 8,3 MT.
Проект HF: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1