Файл с подвохом: вредоносная инструкция в README обманывает ИИ-агентов

Специалисты по кибербезопасности обнаружили новый тип атаки на системы искусственного интеллекта, которые помогают разработчикам в работе с кодом.

Злоумышленники могут скрыть вредоносные инструкции в обычном README-файле, который содержит описание проекта и руководство по установке.

Когда ИИ-агент обрабатывает этот файл, он воспринимает скрытые команды как часть легитимной документации и послушно их выполняет, сообщается в исследовании.

Речь идет о так называемой семантической инъекции, когда в документацию добавляют шаг, внешне напоминающий обычную установку зависимостей или синхронизацию конфигурации.

В результате вместе с настройкой проекта агент может отправить локальные файлы, конфиденциальные данные или логи на внешний сервер под контролем атакующих.

Для проверки этой угрозы исследователи создали набор данных ReadSecBench, включив в него 500 файлов README из открытых репозиториев на языках Java, Python, C, C++ и JavaScript.

В эти файлы добавили вредоносные вставки и протестировали реакцию разных ИИ-агентов при настройке проектов.

В ряде сценариев скрытые инструкции срабатывали в 85 процентах случаев.

Эффективность атаки сильно зависела от формулировки команды. Если вредоносная инструкция была написана как обычное указание, она срабатывала примерно в 84 процентах тестов.

Когда скрытое указание находилось не в основном файле, а через пару переходов по ссылкам внутри документации, успешность атаки достигала 91 процента.

Отдельно исследователи проверили, насколько хорошо люди способны замечать такие угрозы.

Пятнадцать участников вручную просматривали файлы README и пытались найти подозрительные места.

Никто из них не смог точно определить вредоносные инструкции. Более половины рецензентов вообще не заметили ничего странного, а 40 процентов комментариев касались стилистики и формулировок, а не реальной угрозы.

Автоматические системы защиты тоже показали неидеальные результаты.

Сканеры часто ошибочно реагировали на обычные файлы, потому что документация по умолчанию содержит много команд, путей и кусков кода.

Модели-классификаторы выдавали меньше ложных срабатываний, но пропускали часть атак, особенно если вредоносные инструкции были вынесены в связанные документы.

Файл с подвохом: вредоносная инструкция в README обманывает ИИ-агентов

Актуальные новости: