Причины использовать LLM с открытым исходным кодом

С момента запуска ChatGPT год назад ландшафт больших языковых моделей (LLM) значительно изменился. Мы перешли от модели, позволяющей управлять ими всеми, к области с разнообразными LLM, каждая из которых обладает уникальными функциями.

Наряду с рынком проприетарных моделей с закрытым исходным кодом, таких как ChatGPT, появилось впечатляющее количество LLM с открытым исходным кодом, которые соответствуют, а в некоторых случаях и превосходят по производительности свои частные аналоги.

Для предприятий, разрабатывающих приложения LLM, аргументы в пользу использования этих моделей с открытым исходным кодом становятся все более убедительными. Недавний спор вокруг OpenAI еще раз подчеркивает необходимость для компаний пересмотреть свои стратегии LLM и риски, связанные с опорой на единую частную модель.

Вот четыре причины, по которым вам следует рассмотреть модели с открытым исходным кодом для вашего предприятия.

Прозрачность

LLM часто воспринимаются как черные ящики, их внутренняя работа до сих пор является предметом интенсивных дискуссий. Мнения ученых о том, действительно ли LLM понимают язык или просто перефразируют шаблоны, наблюдаемые в их обучающих данных, разделились.

Это ощущение таинственности усиливается с моделями с закрытым исходным кодом, такими как ChatGPT. Взаимодействие с такими моделями через API сродни работе с черным ящиком внутри другого черного ящика. Пользовательские подсказки не попадают непосредственно в модель; вместо этого они проходят через конвейер, предназначенный для обеспечения безопасности.

Выходные данные модели также отслеживаются, чтобы предотвратить создание небезопасного контента. Более того, эти API и базовые модели регулярно обновляются, чтобы противодействовать появлению новых запросов на джейлбрейк и генерации вредоносных программ.

Хотя такой уровень контроля и безопасности выгоден для многих потребительских приложений LLM, он может не соответствовать потребностям многих предприятий. В бизнес-среде LLM часто выполняют специфические, узкие функции, такие как поиск документов, помощь в написании или поддержка кодирования. Эти приложения, как правило, являются внутренними, и предприятия ценят прозрачность и стабильность, а не модель, поведение которой постоянно меняется за кулисами. Для этих предприятий LLM с открытым исходным кодом, с присущей ему прозрачностью и предсказуемостью, может быть более подходящим выбором.

Контроль

Языковые модели с закрытым исходным кодом, такие как ChatGPT, обучаются и настраиваются в соответствии с политикой их поставщиков. Хотя такой подход может со временем улучшить модели, он также может изменить их поведение. Следовательно, новая версия модели может по-другому реагировать на запрос, который она ранее обрабатывала определенным образом.

Некоторые пользователи выразили обеспокоенность по поводу предполагаемого ухудшения производительности модели. Однако часто это не случай ухудшения, а изменение поведения из-за новых обучающих данных. Кроме того, провайдеры могут переключить модель, работающую за API, по таким причинам, как снижение затрат или улучшение скорости вывода, что также изменит ее поведение.

Хотя эти изменения могут быть полезны для многих приложений и помочь отдельным пользователям более эффективно достигать своих целей, они могут создавать проблемы, когда требуется согласованность. Если вам нужна модель для последовательного предоставления одного и того же ответа на одно и то же приглашение, постоянно меняющаяся система API может не соответствовать вашим потребностям.

Такие сервисы, как OpenAI API, действительно предлагают доступ к определенным версиям своей модели. Однако у них есть история постепенного отказа от моделей без достаточного предупреждения или предоставления разработчикам достаточного времени для тестирования и адаптации своих приложений к новым моделям. Это отсутствие предсказуемости может стать серьезной проблемой для предприятий, которым требуется стабильность в их приложениях LLM.

Гибкость

Причины использовать LLM с открытым исходным кодом

Во многих сценариях крайне важно иметь возможность интегрировать языковые модели в существующую ИТ-инфраструктуру. С моделями с закрытым исходным кодом вы ограничены сервисом API или облачными провайдерами, которые сотрудничают с поставщиком моделей. Это ограничение может помешать вашей гибкости и контролю над вашими данными и моделями.

И наоборот, модели с открытым исходным кодом предлагают большую свободу. Вы можете запускать эти модели на своих собственных серверах или у поставщика облачных услуг по вашему выбору. Крупные поставщики облачных технологий, включая Microsoft и Amazon, признали ценность моделей с открытым исходным кодом и предлагают их в формате машинного обучения как услуги (MLaaS). Кроме того, вы можете запускать свои собственные образы Docker на облачных или локальных серверах, гарантируя, что при изменении инфраструктуры ваши данные и модели смогут перемещаться вместе с вами.

Для беспрепятственной интеграции моделей в ваши приложения вы можете использовать платформы, обслуживающие LLM, такие как VLLM, TGI или OpenLLM. Они предоставляют общий интерфейс для взаимодействия с различными типами LLM, упрощая процесс интеграции.

Что еще более важно, экосистема с открытым исходным кодом богата инструментами, которые позволяют вам настраивать модели в соответствии с вашими конкретными потребностями. Например, если приоритетом является снижение затрат, вы можете использовать различные методы сжатия и квантования. Если персонализация является ключевой, экономически эффективные методы тонкой настройки, такие как низкоуровневая адаптация (LoRa) и S-LoRa, могут позволить вам запускать сотни или даже тысячи точно настроенных LLM по цене одной.

Для задач, связанных с генерацией очень длинного текста, такие фреймворки, как StreamingLLM, могут расширить контекстное окно вашей модели до миллионов токенов без необходимости переподготовки или архитектурных изменений. Эта гибкость и масштабируемость уникальны для экосистемы с открытым исходным кодом и еще не сравнимы с рынком частных моделей.

Свобода от драмы

Недавняя драма в OpenAI подчеркивает нестабильный характер рынка искусственного интеллекта. Это яркое напоминание о том, что мы все еще справляемся со сложностями создания надежных корпоративных структур для компаний, занимающихся искусственным интеллектом. Если вы сильно полагаетесь на закрытую систему, такую как GPT-4, вы можете строить свои приложения на ненадежном фундаменте, который может неожиданно рухнуть.

Напротив, развертывание модели с открытым исходным кодом дает вам полное право собственности. Политика разработчика не влияет на нее, предлагая уровень стабильности, который модели с закрытым исходным кодом гарантировать не могут. Если возникнут проблемы с вашей службой хостинга, у вас есть свобода переключиться на другого облачного провайдера или сервер без потери доступа к вашей модели.

Как минимум, разумно иметь резервный план. Модель с открытым исходным кодом может служить надежным запасным вариантом, если проприетарная модель выйдет из строя или будет снята с производства. Такой подход обеспечивает непрерывность обслуживания и снижает риски, связанные с чрезмерной зависимостью от единой частной модели.

Да здравствует ChatGPT!

Это обсуждение не направлено на то, чтобы принизить ценность ChatGPT, GPT-4, Claude или других моделей с закрытым исходным кодом. Я продолжаю регулярно использовать ChatGPT для различных задач, включая написание текстов и кодирование.

Модели с закрытым исходным кодом, несомненно, сохранят свою актуальность, особенно для однопользовательских приложений, у которых нет особых требований к интеграции и настройке. Однако корпоративные приложения часто имеют множество зависимостей и движущихся частей, которые должны работать согласованно. В таких средах частные модели, такие как ChatGPT, могут служить отличными платформами для быстрого прототипирования и итерации решений.

Однако, как только направление вашего приложения станет ясным, модель с открытым исходным кодом, вероятно, обеспечит более надежную основу, которую можно оптимизировать и улучшать с течением времени.