Ученые разработали агент мониторинга искусственного интеллекта для обнаружения и прекращения вредных выбросов
Система мониторинга предназначена для обнаружения и предотвращения как оперативных атак, так и крайних угроз.
Команда исследователей из компании AutoGPT, занимающейся искусственным интеллектом (ИИ), Северо-Восточного университета и Microsoft Research разработала инструмент, который отслеживает большие языковые модели (LLM) на предмет потенциально вредных выходных данных и предотвращает их выполнение.
Агент описан в препринте исследовательской работы под названием «Безопасное тестирование агентов языковой модели в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может остановить вредоносные действия, такие как атаки кода, до того, как они произойдут.
Согласно исследованию:
«Действия агентов проверяются контекстно-зависимым монитором, который обеспечивает строгие границы безопасности, чтобы остановить небезопасный тест, при этом подозрительное поведение ранжируется и регистрируется для проверки людьми».
Команда пишет, что существующие инструменты для мониторинга результатов LLM на предмет вредных взаимодействий, по-видимому, хорошо работают в лабораторных условиях, но когда они применяются к тестированию моделей, которые уже находятся в производстве в открытом Интернете, они «часто не способны уловить динамические тонкости реального мира».
Якобы это связано с существованием крайних случаев. Несмотря на все усилия самых талантливых ученых-компьютерщиков, идея о том, что исследователи могут представить каждый возможный вектор вреда до того, как он произойдет, в области ИИ по большей части считается невозможной.
Даже когда люди, взаимодействующие с ИИ, имеют самые благие намерения, неожиданный вред может возникнуть из-за, казалось бы, безобидных подсказок.

Чтобы обучить агента мониторинга, исследователи создали набор данных, содержащий около 2000 безопасных взаимодействий человека и искусственного интеллекта для выполнения 29 различных задач, начиная от простых задач по поиску текста и исправлений кода и заканчивая разработкой целых веб-страниц с нуля.
Они также создали конкурирующий набор тестовых данных, наполненный созданными вручную состязательными результатами, десятки из которых были намеренно разработаны как небезопасные.
Затем наборы данных использовались для обучения агента работе с GPT 3.5 Turbo от OpenAI, современной системой, способной различать безобидные и потенциально опасные выходные данные с коэффициентом точности почти 90%.
Смотрите также
- Срочное: CZ Binance признает себя виновным в нарушении требований по борьбе с отмыванием денег — WSJ
- Почему рынок криптовалют сегодня падает?
- БИТКОИН ПРОГНОЗ. BTC криптовалюта
- Почему цена Solana (SOL) сегодня снизилась?
- TIA ПРОГНОЗ. TIA криптовалюта
- Биткойн на Луну! Топ-5 прогнозов цен на BTC на 2024 год и последующий период
- MEME ПРОГНОЗ. MEME криптовалюта
- Bittrex Global объявляет, что вся торговля будет отключена по мере свертывания операций
- Криптотрейдеры снова смотрят на Dogecoin (DOGE) — вот почему
- Первое окно SEC для одобрения всех 12 спотовых биткойн-ETF начинается сегодня