Почему агенты являются следующим рубежом генеративного ИИ

Lareina Yee, Michael Chui, Roger Roberts

За последние пару лет мир восхищался возможностями, которые открывает генеративный ИИ (gen AI). Базовые модели, такие как модели большого языка (LLM), могут выполнять впечатляющие действия, извлекая информацию и генерируя контент на многочисленных носителях, таких как текст, аудио, изображения и видео. Но следующий этап генеративного ИИ, вероятно, будет более трансформирующим.

Мы начинаем эволюцию от основанных на знаниях инструментов на базе нового поколения искусственного интеллекта — скажем, чат-ботов, которые отвечают на вопросы и генерируют контент, — к “агентам” с поддержкой нового поколения искусственного интеллекта, которые используют базовые модели для выполнения сложных многоступенчатых рабочих процессов в цифровом мире. Короче говоря, технология переходит от мысли к действию.

В широком смысле “агентские” системы относятся к цифровым системам, которые могут независимо взаимодействовать в динамичном мире. Хотя версии этих программных систем существуют уже много лет, возможности gen AI на естественном языке открывают новые возможности, позволяя системам планировать свои действия, использовать онлайн-инструменты для выполнения этих задач, сотрудничать с другими агентами и людьми и учиться улучшать свою производительность. Агенты с генеративным ИИ в конечном итоге могут действовать как опытные виртуальные коллеги, работая с людьми беспрепятственно и естественно. Например, виртуальный ассистент может планировать и бронировать сложный персонализированный маршрут путешествия, управляя логистикой на нескольких туристических платформах. Используя обычный язык, инженер может описать новую функцию программного обеспечения программисту-агенту, который затем будет кодировать, тестировать, повторять и внедрять инструмент, который он помог создать.

Агентные системы традиционно были сложными в реализации, требуя трудоемкого программирования на основе правил или высокоспециализированного обучения моделей машинного обучения. Новый ИИ меняет ситуацию. Когда агентские системы строятся с использованием базовых моделей (которые были обучены на чрезвычайно больших и разнообразных неструктурированных наборах данных), а не предопределенных правил, у них появляется потенциал для адаптации к различным сценариям таким же образом, как LLM могут разумно реагировать на запросы, по которым они не были обучены явно. Более того, используя естественный язык, а не программный код, пользователь-человек может управлять агентной системой с поддержкой gen AI для выполнения сложного рабочего процесса. Затем мультиагентная система могла бы интерпретировать и организовать этот рабочий процесс в виде практических задач, распределять работу специализированным агентам, выполнять эти уточненные задачи с использованием цифровой экосистемы инструментов и сотрудничать с другими агентами и людьми для итеративного улучшения качества своих действий.

В этой статье мы исследуем возможности, которые открывает использование агентов gen AI. Хотя технология все еще находится в стадии зарождения и требует дальнейшего технического развития, прежде чем будет готова к внедрению в бизнес, она быстро привлекает внимание. Только за последний год Google, Microsoft, OpenAI и другие инвестировали в программные библиотеки и фреймворки для поддержки агентской функциональности. Приложения на базе LLM, такие как Microsoft Copilot, Amazon Q и готовящийся к выпуску проект Astra от Google, переходят от знаний к практическим действиям. Такие компании и исследовательские лаборатории, как Adept, crewAI и Imbue, также разрабатывают агентные модели и мультиагентные системы. Учитывая скорость, с которой развивается генеративный ИИ, агенты могут стать таким же обычным явлением, как чат-боты сегодня.

Какую ценность агенты могут принести бизнесу?

Ценность, которую могут раскрыть агенты, заключается в их потенциале автоматизировать длинный ряд сложных вариантов использования, характеризующихся высокой вариативностью входных и выходных данных, — вариантов использования, которые исторически было трудно решить экономичным способом. Например, такая простая вещь, как деловая поездка, может включать в себя множество возможных маршрутов, охватывающих различные авиакомпании и рейсы, не говоря уже о поощрительных программах отелей, бронировании столиков в ресторанах и мероприятиях в нерабочее время, и все это должно выполняться на разных онлайн-платформах. Несмотря на попытки автоматизировать отдельные части этого процесса, многое по-прежнему приходится выполнять вручную. Во многом это связано с тем, что большие различия в потенциальных входных и выходных данных делают процесс слишком сложным, дорогостоящим или отнимающим много времени для автоматизации.

Агенты с поддержкой искусственного интеллекта нового поколения могут упростить автоматизацию сложных и открытых вариантов использования тремя важными способами:

Агенты могут управлять множественностью. Многие бизнес-сценарии использования и процессы характеризуются линейным рабочим процессом с четким началом и серией шагов, которые приводят к определенному решению или результату. Эта относительная простота позволяет легко кодифицировать их и автоматизировать в системах, основанных на правилах. Но системы, основанные на правилах, часто проявляют “хрупкость”, то есть они ломаются при столкновении с ситуациями, не предусмотренными разработчиками явных правил. Многие рабочие процессы, например, гораздо менее предсказуемы, характеризуются неожиданными поворотами и целым рядом возможных результатов; эти рабочие процессы требуют особого управления и тонкого суждения, что усложняет автоматизацию на основе правил. Но агентные системы поколения ИИ, поскольку они основаны на базовых моделях, обладают потенциалом для решения широкого спектра маловероятных ситуаций для данного варианта использования, адаптируясь в режиме реального времени для выполнения специализированных задач, необходимых для доведения процесса до завершения.
Системами агентов можно управлять с помощью естественного языка. В настоящее время для автоматизации варианта использования его сначала необходимо разбить на ряд правил и шагов, которые можно кодифицировать. Эти этапы обычно переводятся в компьютерный код и интегрируются в программные системы — зачастую дорогостоящий и трудоемкий процесс, требующий значительных технических знаний. Поскольку агентские системы используют естественный язык в качестве формы обучения, даже сложные рабочие процессы могут быть закодированы быстрее и проще. Более того, потенциально этот процесс может выполняться нетехническими сотрудниками, а не инженерами-программистами. Это упрощает интеграцию экспертных знаний в предметной области, предоставляет более широкий доступ к генераторному ИИ и инструментам искусственного интеллекта и облегчает сотрудничество между техническими и нетехническими командами.
Агенты могут работать с существующими программными инструментами и платформами. Помимо анализа и генерации знаний, агентные системы могут использовать инструменты и взаимодействовать в рамках более широкой цифровой экосистемы. Например, агенту можно поручить работать с программными приложениями (такими как инструменты построения графиков), искать информацию в Интернете, собирать и обобщать отзывы людей и даже использовать дополнительные базовые модели. Использование цифровых инструментов является не только определяющей характеристикой агентов (это один из способов, с помощью которого они могут действовать в мире), но и способом уникального применения их возможностей в области искусственного интеллекта. Базовые модели могут научиться взаимодействовать с инструментами, будь то с помощью естественного языка или других интерфейсов. Без базовых моделей эти возможности потребовали бы значительных ручных усилий по интеграции систем (например, с использованием инструментов извлечения, преобразования и загрузки) или утомительных ручных усилий по сопоставлению результатов, полученных от различных программных систем.

Как могут работать агенты с поддержкой gen AI

Агенты могут поддерживать сценарии использования высокой сложности в различных отраслях и бизнес-функциях, особенно для рабочих процессов, требующих выполнения трудоемких задач или различных специализированных видов качественного и количественного анализа. Агенты делают это путем рекурсивного разбиения сложных рабочих процессов и выполнения подзадач с помощью специализированных инструкций и источников данных для достижения желаемой цели. Процесс обычно состоит из следующих четырех шагов (рис. 1).:

Пользователь предоставляет инструкции: Пользователь взаимодействует с системой искусственного интеллекта, предоставляя подсказку на естественном языке, подобно тому, как можно было бы инструктировать доверенного сотрудника. Система определяет предполагаемый вариант использования, запрашивая у пользователя дополнительные разъяснения, когда это необходимо.
Агентная система планирует, распределяет и выполняет работу: Агентная система преобразует запрос в рабочий процесс, разбивая его на задачи и подзадачи, которые субагент-менеджер назначает другим специализированным субагентам. Эти субагенты, обладающие необходимыми знаниями и инструментами в предметной области, опираются на предыдущий “опыт” и кодифицированную экспертизу в предметной области, координируя свои действия друг с другом и используя организационные данные и системы для выполнения своих заданий.
Система агентов итеративно улучшает результат: на протяжении всего процесса агент может запрашивать дополнительные данные пользователя для обеспечения точности и релевантности. Процесс может завершиться тем, что агент предоставит пользователю окончательный результат, повторяя любые отзывы, которыми поделился пользователь.
Агент выполняет действие: Агент выполняет любые необходимые действия в мире для полного выполнения задачи, запрошенной пользователем.

Мы стремимся предоставить людям с ограниченными возможностями равный доступ к нашему веб-сайту. Если вам нужна информация об этом контенте, мы будем рады сотрудничать с вами. Пожалуйста, напишите нам по адресу: McKinsey_Website_Accessibility@mckinsey.com

Искусство возможного: три потенциальных варианта использования

Что означают системы такого рода для бизнеса? Следующие три гипотетических варианта использования дают представление о том, что может стать возможным в не столь отдаленном будущем.

Пример использования 1: Андеррайтинг кредита

Финансовые учреждения готовят меморандумы о кредитных рисках для оценки рисков, связанных с предоставлением кредита заемщику. Процесс включает в себя сбор, анализ и анализирование различных форм информации, относящейся к заемщику, типу кредита и другим факторам. Учитывая множество сценариев кредитного риска и необходимых анализов, это, как правило, требует много времени и требует тесного сотрудничества, требующего от менеджера по взаимоотношениям работы с заемщиком, заинтересованными сторонами и кредитными аналитиками проведения специализированных анализов, которые затем передаются кредитному менеджеру для проверки и дополнительной экспертизы.

Потенциальное решение на основе агентов: Агентская система, состоящая из нескольких агентов, каждый из которых выполняет специализированную роль, основанную на задачах, потенциально может быть разработана для работы с широким спектром сценариев кредитного риска. Человек-пользователь инициировал бы процесс, используя естественный язык, чтобы предоставить высокоуровневый рабочий план задач с конкретными правилами, стандартами и условиями. Затем эта команда агентов разбила бы работу на выполняемые подзадачи.

Например, один агент может выступать в качестве менеджера по взаимоотношениям для управления коммуникациями между заемщиком и финансовыми учреждениями. Агент-исполнитель может составить необходимые документы и направить их агенту-финансовому аналитику, который, скажем, изучит задолженность на основе отчетов о движении денежных средств и рассчитает соответствующие финансовые коэффициенты, которые затем будут проверены агентом-критиком для выявления расхождений и ошибок и предоставления обратной связи. Этот процесс разбивки, анализа, уточнения и проверки будет повторяться до тех пор, пока не будет составлено окончательное кредит-авизо (рис. 2).

В отличие от архитектур ИИ более простого поколения, агенты могут создавать высококачественный контент, сокращая время цикла проверки на 20-60 процентов. Агенты также могут работать с несколькими системами и разбираться в данных, полученных из нескольких источников. Наконец, агенты могут продемонстрировать свою работу: кредитные аналитики могут быстро разобраться в любом сгенерированном тексте или цифрах, получая доступ ко всей цепочке задач и используя источники данных для получения сгенерированной информации. Это облегчает быструю проверку результатов.

Пример использования 2: документирование кода и модернизация

Устаревшие программные приложения и системы на крупных предприятиях часто представляют угрозу безопасности и могут замедлить темпы внедрения инноваций в бизнес. Но модернизация этих систем может быть сложной, дорогостоящей и отнимать много времени, требуя от инженеров анализа и понимания миллионов строк старой базы кода и ручной документации бизнес-логики, а затем перевода этой логики в обновленную базу кода и интеграции ее с другими системами.

Потенциальное решение на основе агентов: Агенты с искусственным интеллектом обладают потенциалом значительно упростить этот процесс. Специализированный агент может быть задействован в качестве эксперта по устаревшему программному обеспечению, анализирующего старый код, документирующего и переводящего различные сегменты кода. Одновременно агент по обеспечению качества может критически проанализировать эту документацию и подготовить тестовые примеры, помогая системе искусственного интеллекта итеративно совершенствовать свои выходные данные и обеспечивать их точность и соответствие стандартам организации. Между тем, повторяющийся характер этого процесса может привести к эффекту маховика, при котором компоненты агентной среды повторно используются для других миграций программного обеспечения по всей организации, что значительно повышает производительность и снижает общие затраты на разработку программного обеспечения.

Пример использования 3: создание маркетинговой кампании в Интернете

Разработка, запуск и проведение маркетинговой кампании в Интернете, как правило, предполагает использование множества различных программных инструментов, приложений и платформ. Рабочий процесс для маркетинговой кампании в Интернете чрезвычайно сложен. Бизнес-цели и тенденции рынка должны быть воплощены в креативные идеи кампаний. Письменные и визуальные материалы должны быть созданы и адаптированы для различных сегментов и географических регионов. Кампании должны тестироваться с группами пользователей на различных платформах. Для выполнения этих задач маркетинговые команды часто используют различные формы программного обеспечения и должны переносить результаты из одного инструмента в другой, что часто является утомительным и отнимает много времени.

Потенциальное решение на основе агентов: Агенты могут помочь подключить эту экосистему цифрового маркетинга. Например, маркетолог может описать целевых пользователей, первоначальные идеи, предполагаемые каналы и другие параметры естественным языком. В таком случае агентная система — при содействии специалистов по маркетингу — помогла бы разрабатывать, тестировать и повторять различные идеи кампаний. Специалист по стратегии цифрового маркетинга может использовать онлайн-опросы, аналитику решений для управления взаимоотношениями с клиентами и другие платформы для исследования рынка, направленные на сбор информации для разработки стратегий с использованием мультимодальных базовых моделей. Агенты по контент-маркетингу, копирайтингу и дизайну могли бы создавать индивидуальный контент, который специалист-оценщик проверял бы на соответствие бренду. Эти агенты будут сотрудничать, чтобы повторять и совершенствовать результаты и ориентироваться на подход, который оптимизирует воздействие кампании при минимизации риска для бренда.

Как бизнес-лидерам следует готовиться к эпохе агентов?

Хотя агентные технологии находятся на стадии становления, увеличение инвестиций в эти инструменты может привести к тому, что агентные системы достигнут заметных успехов и будут развернуты в широких масштабах в течение следующих нескольких лет. Таким образом, бизнес-лидерам не так уж рано узнать больше об агентах и подумать, можно ли ускорить некоторые из их ключевых процессов или бизнес-императивов с помощью агентских систем и возможностей. Это понимание может послужить основой для планирования будущих дорожных карт или сценариев и помочь лидерам оставаться на грани готовности к инновациям. Как только эти потенциальные варианты использования будут определены, организации могут приступить к изучению растущего ландшафта агентов, используя API, наборы инструментов и библиотеки (например, Microsoft Autogen, Hugging Face и LangChain), чтобы начать понимать, что актуально.

Чтобы подготовиться к появлению агентских систем, организациям следует учитывать эти три фактора, которые будут ключевыми для реализации потенциала таких систем:

Кодификация соответствующих знаний: Реализация сложных вариантов использования, вероятно, потребует от организаций определения и документирования бизнес-процессов в виде кодифицированных рабочих процессов, которые затем используются для обучения агентов. Аналогичным образом, организации могли бы подумать о том, как они могут использовать знания в предметной области, которые будут использоваться для инструктирования агентов на естественном языке, оптимизируя таким образом сложные процессы.
Стратегическое технологическое планирование: Организациям необходимо организовать свои данные и ИТ-системы таким образом, чтобы системы агентов могли эффективно взаимодействовать с существующей инфраструктурой. Это включает в себя отслеживание взаимодействий пользователей для постоянной обратной связи и создание гибкости для интеграции будущих технологий без нарушения существующих операций.
Механизмы контроля “Человек в цикле”: По мере того, как агенты поколения ИИ начинают взаимодействовать с реальным миром, механизмы контроля необходимы для баланса автономии и риска (см. Врезку “Понимание уникальных рисков, создаваемых агентными системами”). Люди должны проверять результаты на точность, соответствие требованиям и справедливость; работать с экспертами в предметной области над обслуживанием и масштабированием агентных систем; и создать механизм обучения для постоянного совершенствования. Организациям следует начать обдумывать, при каких условиях и как следует внедрять такие механизмы “человек в цикле”.

Последнее исследование McKinsey “Состояние ИИ” показало, что более 72 процентов опрошенных компаний внедряют решения с искусственным интеллектом, проявляя растущий интерес к генеративному ИИ. Учитывая эту деятельность, было бы неудивительно увидеть, что компании начинают внедрять передовые технологии, такие как агенты, в свои процессы планирования и будущие дорожные карты искусственного интеллекта. Автоматизация, управляемая агентами, остается захватывающим предложением, способным революционизировать целые отрасли, придавая работе новую скорость.

the-state-of-ai-in-early-2024-final Скачать

Тем не менее, технология все еще находится на ранних стадиях развития, и требуется значительная доработка, прежде чем ее возможности будут реализованы в полной мере. Возросшая сложность и автономность этих систем создают множество проблем и рисков. И если внедрение агентов ИИ сродни добавлению в команду новых сотрудников, точно так же, как и членов их команды-людей, агентам потребуется значительное тестирование, обучение и коучинг, прежде чем им можно будет доверить независимую работу. Но даже в эти первые дни нетрудно представить, какие широкие возможности потенциально может раскрыть это новое поколение виртуальных коллег.