Три ключевые практики для успешного внедрения ИИ-агентов «человеческого уровня»
Появление программных агентов, способных действовать практически на уровне человека, открывает новые горизонты в области искусственного интеллекта. Об этом заявил Мустафа Сулейман, генеральный директор Microsoft по вопросам ИИ, в своей недавней колонке для MIT Technology Review. Однако на пути к их повсеместному внедрению компании сталкиваются со значительными трудностями, пытаясь перестроить рабочие процессы и определить, к какой информации должны иметь доступ агенты ИИ.
В результате, как отмечает гигант в области технологий баз данных Databricks в своем отчете «Состояние ИИ-агентов», «только 19% организаций внедрили ИИ-агенты, и в основном в ограниченном масштабе».
Крейг Уайли, руководитель отдела ИИ в Databricks, подчеркнул три основные проблемы, с которыми сталкиваются финансовые директора:
- Возможность контроля системы.
- Оценка эффективности и ценности результатов, выдаваемых моделью.
- Затраты на внедрение и эксплуатацию.
Чтобы решить эти вопросы, Уайли рекомендует предприятиям еще до этапа внедрения ИИ-агентов учитывать три ключевые практики:
- Обеспечение контроля (управление).
- Оценка корректности работы.
- Начинать с малого для максимальной эффективности и отдачи.
Можно ли контролировать систему?
Вопрос «Можно ли это контролировать?» сводится к практике управления, которая начинается с контроля над тем, к каким данным будет иметь доступ ИИ-агент. ИИ-агент — это программа искусственного интеллекта, способная выходить за рамки простого пошагового взаимодействия, предлагаемого такими чат-ботами, как ChatGPT. Агент может подключаться к корпоративным ресурсам, например, к базам данных, выполнять компьютерный код вне большой языковой модели и задействовать внешние программы, такие как системы электронной почты. Он может объединять множество различных действий для выполнения целых рабочих процессов.
Главное правило при доступе к данным — «не навреди». Клиент Databricks, приложение для женского здоровья Flow, насчитывает 75 миллионов пользователей, которые используют его для персонализированных оценок и рекомендаций. Представители Flow стремились предоставлять пользователям все более глубокие отзывы, советы и рекомендации. Однако им необходимо проявлять исключительную осторожность, поскольку речь идет об очень конфиденциальных данных. Последнее, чего бы они хотели, — это чтобы пользователь приложения получил ответ, содержащий информацию другого пользователя.
Для защиты от таких утечек данных система управления должна уметь очень избирательно определять, какие инструменты или данные доступны всем, а какие предназначены только для конкретного пользователя. Компания Franklin Templeton, управляющая активами, проявила аналогичную осторожность при отправке отчетов по портфелям клиентам. По мнению Уайли, недопустимо, чтобы клиент получил электронное письмо от своего финансового консультанта, содержащее информацию о чужом портфеле.
Часто организации сначала увлекаются конкретным сценарием использования, а затем сталкиваются с проблемой, когда их запросы или ответы должны быть персонализированы для каждого пользователя. Это должно обеспечиваться не просто подсказкой в запросе, а жестким, детерминированным принуждением.
Объединение данных
Следующая часть управления — это определение вопроса и выявление ресурса, который должен содержать ответ. Задача состоит в том, чтобы точно сопоставить вопрос с идеальными данными и правильной моделью для получения ответа. Цель — избежать превращения ИИ-агента в «транзакционного» чат-бота, от которого ожидается постоянная постановка новых вопросов.
Агент должен быть спроектирован таким образом, чтобы он мог находить множество взаимосвязанных фрагментов данных и автоматически позволять пользователю глубже погружаться в тему.
В качестве примера Уайли привел Edmunds, онлайн-сервис по продаже автомобилей, который создал внутренний информационный инструмент на основе ИИ-агентов под названием Edmunds Mind. Он был разработан для более комплексного анализа потенциальной покупки. Вместо того чтобы просто спрашивать, какой автомобиль является лучшим кабриолетом и сколько он стоит, агенты могут выяснить, какие автосалоны недостаточно обслуживаются, анализируя данные о трафике, демографические данные, информацию о предложениях и ценах.
Такой агент, по словам Уайли, «выполняет целый ряд шагов, чтобы обеспечить высокое качество ответов», снимая с пользователя ответственность за предоставление всей информации модели.
Для реализации управления используется каталог данных, который выполняет две функции. Во-первых, он представляет собой «единое окно», позволяющее ИТ-администратору видеть все, к чему имеет доступ агент, включая структурированные и неструктурированные данные, протокол контекста модели для вызова внешних инструментов и сами вызываемые инструменты.
Во-вторых, каталог обеспечивает соблюдение идентификационных данных, включая идентификацию агента и информацию, к которой он имеет доступ, а также идентификацию пользователя. Каталог отслеживает эти идентификаторы на протяжении всей деятельности агента, чтобы данные были сегментированы и доступны только агенту и пользователю в пределах предоставленных им разрешений.
Тщательное управление с самого начала, как «приоритетный принцип проектирования», значительно повышает вероятность внедрения агентов в производство, в отличие от тех, кто действует «бессистемно». Все сводится к обдуманности подхода к проектированию.
Как узнать, что результат корректен?
Второй элемент — это тщательная проработка методов оценки того, что выдает модель. Когда разработчики приложения Flow стремились повысить точность, оценку того, насколько агенты говорят то, что должны, проводили врачи, а не программисты. Программисты писали так называемую систему оркестровки, которая управляет агентами, но именно врачи говорили: «этому ответу здесь нужен дополнительный контекст или уточнение».
Оценка, как отметил Уайли, проводится непрерывно на протяжении всего жизненного цикла программы и на нескольких уровнях. Анализируется не только то, о чем спрашивали агента и что он ответил, но и что именно он делал на каждом промежуточном этапе своего мыслительного процесса, и соответствовало ли это достижению правильного ответа.
Если что-то не так, агента возвращают на этап оценки, перенастраивают и снова развертывают, поддерживая этот цикл для создания автоматизированных обучающихся агентов, в которых, по мнению экспертов, люди действительно нуждаются.
Точность позволила Flow вывести на рынок приложение, отличающееся качеством пользовательского опыта. В более широком смысле, как и в случае с управлением, компании, способные оценивать результаты работы агентов, в шесть раз чаще внедряют их в производство.
Начинайте с малого
Третий аспект, стоимость, становится проще, если правильно выполнены первые два пункта: управление и оценка. По словам Уайли, «как только вы сможете сделать эти две вещи, честно говоря, все остальное становится деталями реализации». Однако стоимость должна учитываться с самого начала.
Это вопрос, который часто обсуждается с клиентами: «Можно ли решить эту задачу сегодня в рамках разумного бюджета? И если да, принесет ли это реальную пользу вашей компании?»
Важным аспектом реализации, продолжил Уайли, является решение начинать с малого и наращивать темпы таким образом, чтобы агенты могли управляться и проверяться. Наблюдаются компании с различным уровнем амбиций, и амбиции — это здорово. Однако, как и во всех программных проектах, чем меньше и более атомарными можно создать отдельные части, которые затем можно протестировать и подтвердить их работоспособность, тем легче затем объединить их в более крупный «конфедерацию» возможностей, способных выполнить гораздо более масштабную задачу.
В качестве примера сфокусированного подхода Уайли привел сеть магазинов у дома 7-Eleven, где технические специалисты выезжают на объекты для ремонта оборудования. Когда у них нет нужных руководств, это либо бесполезная поездка, либо более сложная работа, чем должна быть.
Предоставив агентам доступ к огромному объему документации, компания смогла обеспечить техников «суперпомощником». Теперь они могут искать информацию по каждой проблеме, которая когда-либо возникала с этими машинами, а также каждое руководство и спецификацию. Им больше не нужно звонить коллегам с вопросом: «Ты сталкивался с такой проблемой раньше?»
Другой пример — Университет Бэйлора, который использует агентов для анализа записей каждого звонка с потенциальным абитуриентом, чтобы изучать такие элементы, как факторы принятия решения студентом о выборе учебного заведения, когда у людей, принимающих звонки, нет времени или энергии для ведения подробных записей.
«Теперь они могут узнать гораздо больше о своей собственной организации, слушая своих клиентов с такой глубиной, как никогда раньше», — отметил Уайли.
Гораздо менее успешным, по его словам, было бы попытка заменить агентами целые рабочие процессы. «Если бы я пытался заменить свою ERP-систему или SaaS-систему, которую использует моя организация, последнее, что я сделал бы, это начал бы с одного запроса: ‘Эй, мне нужна новая система главной книги’. Я бы подходил к этому компонент за компонентом».
В чем выгода?
Пока еще слишком рано говорить о конкретных финансовых показателях окупаемости инвестиций в агенты, отметил Уайли. «Мы, вероятно, находимся на том же этапе, что и веб в 2001 году, когда компании инвестировали в свои веб-страницы, но еще не до конца понимали цель всего этого».
Тем не менее, есть обнадеживающие примеры. Автоматизация анализа инвестиционных портфелей в Franklin Templeton позволила фирме выявить новые возможности для продуктов на сумму более 15 миллионов долларов США, например, пробелы в портфеле клиента.
Компании отмечают, что их ключевые показатели эффективности (KPI) движутся в правильном направлении. Например, 7-Eleven зафиксировала повышение показателя исправления проблем с первого раза для оборудования на 25% и сокращение времени ремонта на 40%, что может привести к значительной экономии затрат.
Последний элемент — это время, необходимое для разработки, создания и развертывания. По мнению Уайли, все сводится к «убеждению, что данные чисты и находятся в нужном месте» с самого начала внедрения ИИ-агентов.
Организация данных с самого начала увеличит «скорость» проекта. «Тогда ваши разработчики программного обеспечения, специалисты по данным, разработчики агентов… смогут работать быстро, если это так. Если ваши данные в хорошем состоянии, мы могли бы сделать это [то есть, создать и развернуть агентскую систему] сегодня днем. Если ваши данные в плохом состоянии, то настоящая проблема будет заключаться в том, сколько времени потребуется, чтобы привести их в порядок».
