Как программы LLM с открытым исходным кодом бросают вызов OpenAI, Google и Microsoft
НовостиСтатьи

Как программы LLM с открытым исходным кодом бросают вызов OpenAI, Google и Microsoft

В последние несколько лет казалось, что богатые технологические компании смогут монополизировать растущий рынок больших языковых моделей (LLM). Недавние звонки о доходах от крупных технологических компаний показали, что они контролируют ситуацию. Анонсы Microsoft, в частности, показывают, что компания создала бизнес стоимостью в миллиард долларов на своих сервисах искусственного интеллекта, в том числе через сервисы Azure OpenAI и рабочие нагрузки, которые OpenAI выполняет в своей облачной инфраструктуре.

Однако недавно просочившийся внутренний документ Google указывает на то, что рыночная доля big tech не так безопасна, как кажется, благодаря достижениям в области программ LLM с открытым исходным кодом. Короче говоря, в документе говорится, что “У нас нет рва, как и у OpenAI”. Динамика рынка постепенно меняется от “чем больше, тем лучше” к “чем дешевле, тем лучше”, ”чем эффективнее, тем лучше“ и ”лучше настраиваемый”. И хотя рынок облачных LLM и продуктов с генеративным искусственным интеллектом всегда будет существовать, заказчикам теперь тоже есть что изучить с открытым исходным кодом.

Большие языковые модели

В документе GPT-3, опубликованном в 2020 году, были продемонстрированы перспективы масштабирования. При 175 миллиардах параметров модель может делать множество вещей, которым она не обучалась. Эволюция GPT-моделей показала, что если вы продолжите создавать более крупные LLM и обучать их на больших наборах данных, вы сможете создавать более эффективные модели.

Успех GPT-3 усилил интерес к созданию более масштабных языковых моделей. В нескольких исследовательских работах рассматривались захватывающие свойства LLM, включая их возникающие возможности. В то же время исследовательские лаборатории искусственного интеллекта стремились создавать все более масштабные модели. Вот несколько примеров: Gopher (280B параметров), LaMDA (137B параметров), PaLM (540B параметров) и Megatron-Turing (530B параметров).

Но в то же время сообщество LLM претерпело более неприятные изменения. С переключением внимания на создание более крупных программ LLM затраты на исследования и инновации резко возросли. Обучение и запуск таких моделей, как GPT-3, обходятся в миллионы долларов. Следовательно, работа над LLM стала ограничена несколькими богатыми компаниями и связанными с ними лабораториями искусственного интеллекта.

По мере того, как лаборатории искусственного интеллекта становились зависимыми от финансовой поддержки коммерческих организаций, на них оказывалось все большее давление с целью монетизации своих технологий. Это подтолкнуло их к созданию продуктов на основе своих технологий. И в то же время им нужно было построить “рвы” вокруг своих продуктов. Рвы – это защитные механизмы, которые не позволяют конкурентам копировать ваш продукт и бизнес.

Ключевыми препятствиями для LLM являются 1) обучающие данные, 2) веса моделей и 3) затраты на обучение и вывод. Крупные технологические компании уже имели преимущество в (3), потому что они единственные, кто может оплатить расходы на обучение и запуск очень крупных программ LLM. Даже альтернативы GPT-3 с открытым исходным кодом, такие как BLOOM и OPT175-B, практически недоступны для организаций с ограниченными денежными средствами, которые не могут позволить себе купить или арендовать тысячи графических процессоров.

Однако, чтобы получить преимущество в двух других областях, технологические компании продвинулись в сторону большей неизвестности и меньшего обмена информацией. OpenAI, вероятно, самый показательный пример. Компания прошла путь от лаборатории искусственного интеллекта, которая публиковала все свои исследования, до стартапа, который продает доступ к API для своих моделей. Она даже больше не публикует подробности о своих обучающих данных и архитектуре модели.

Долгое время это казалось гонкой на выживание, когда крупные технологические компании вкладывали больше денег в программы LLM и делали сферу деятельности более секретной.

Модели LLM с открытым исходным кодом

Поскольку функции LLM были централизованы в нескольких крупных технологических компаниях, сообщество разработчиков с открытым исходным кодом отреагировало на это. Их усилия активизировались после выпуска ChatGPT, продемонстрировавшего растущую перспективность языковых моделей, основанных на следовании инструкциям, в различных приложениях. За последние несколько месяцев мы стали свидетелями выпуска нескольких программ LLM с открытым исходным кодом, которые бросают вызов всей бизнес-модели, созданной Big tech.

Эти альтернативы ChatGPT с открытым исходным кодом доказывают несколько ключевых моментов. Во-первых, LLM с несколькими миллиардами параметров могут конкурировать с очень большими моделями по производительности, если вы обучаете их на очень больших наборах данных. Во-вторых, вы можете настроить небольшие программы LLM на впечатляющий уровень с очень небольшим бюджетом и скромным объемом данных. И, наконец, — и это не новость — темпы развития программ LLM с открытым исходным кодом намного выше, чем в закрытой экосистеме, потому что разные команды могут дополнять работу друг друга.

Большинство из этих LLM имеют 7-13 миллиардов параметров и могут работать на мощном графическом процессоре потребительского уровня. Интересно, что движение было спровоцировано выпуском LLaMA, семейства программ LLM с открытым исходным кодом, разработанных Meta. Вскоре после этого исследователи из разных университетов выпустили Alpaca и Vicuna, две модели, созданные поверх LLaMA, которые были доработаны для выполнения инструкций, подобных ChatGPT.

Лицензия LLaMA запрещает ее использование в коммерческих целях. Dolly 2 от Databricks решает эту проблему, опираясь на модель Pythia от EleutherAI. А Open Assistant – это полностью открытая модель, которая предлагает доступ ко всему, включая код, веса модели и обучающие данные.

В этих моделях также используются преимущества таких методов, как адаптация низкого ранга (LoRa), которая снижает стоимость обучения почти в тысячу раз.

Эти модели предоставляют альтернативы компаниям, которые хотят использовать LLM в своих приложениях. Теперь у них есть доступ к недорогим моделям, которые могут работать на их собственных серверах и могут часто обновляться собственными данными при очень небольшом бюджете.

Что это значит для крупных технологических компаний? Как предупреждается в памятке Google, “… удерживать конкурентное преимущество в технологиях становится еще сложнее теперь, когда передовые исследования в области LLM доступны по цене. Исследовательские институты по всему миру развивают опыт друг друга, всесторонне исследуя пространство решений, что намного превосходит наши собственные возможности. Мы можем попытаться крепко хранить наши секреты, пока внешние инновации снижают их ценность, или мы можем попытаться учиться друг у друга ”.

Что произойдет с рынком закрытых программ LLM?

Очевидно, что крупные технологические компании не смогут монополизировать рынок LLM. Но это не означает, что рынок облачных языковых моделей исчезнет. Как отмечает исследователь искусственного интеллекта Андрей Карпати, экосистема LLM с открытым исходным кодом по-прежнему сталкивается с несколькими проблемами, включая высокие затраты на предварительную подготовку базовых моделей.

В последнее время не слишком много писал в твиттере; в основном я с интересом наблюдаю за экосистемой LLM с открытым исходным кодом, испытывающей ранние признаки кембрийского взрыва. Грубо говоря, история на данный момент:
1. Предварительное обучение базовым моделям LLM остается очень дорогостоящим. Подумайте: суперкомпьютер + месяцы.…— Андрей Карпати (@karpathy) 

6 мая 2023 г.

В то же время программы LLM с открытым исходным кодом подходят не всем. Бессерверные решения “черного ящика” по-прежнему будут очень привлекательны для компаний, которые не обладают собственными навыками машинного обучения и хотят быстро интегрировать LLM в свои приложения с помощью нескольких вызовов API. В то же время такие компании, как Microsoft и Google, имеют очень мощные каналы распространения через свои приложения и клиентскую базу.

Однако усилия сообщества разработчиков с открытым исходным кодом расширят рынок, сделав возможным использование программ LLM в новых средах, таких как ваш собственный ноутбук. В то же время они в определенной степени коммодитизируют рынок и вынуждают технологических гигантов предоставлять своим клиентам более конкурентоспособные цены. Сфера LLM развивается очень быстро. Будет интересно посмотреть, что будет происходить в ближайшие недели и месяцы.

Hi, I’m admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *