Специалисты по кибербезопасности обнаружили новый тип атаки на системы искусственного интеллекта, которые помогают разработчикам в работе с кодом.
Злоумышленники могут скрыть вредоносные инструкции в обычном README-файле, который содержит описание проекта и руководство по установке.
Когда ИИ-агент обрабатывает этот файл, он воспринимает скрытые команды как часть легитимной документации и послушно их выполняет, сообщается в исследовании.

Речь идет о так называемой семантической инъекции, когда в документацию добавляют шаг, внешне напоминающий обычную установку зависимостей или синхронизацию конфигурации.
В результате вместе с настройкой проекта агент может отправить локальные файлы, конфиденциальные данные или логи на внешний сервер под контролем атакующих.
Для проверки этой угрозы исследователи создали набор данных ReadSecBench, включив в него 500 файлов README из открытых репозиториев на языках Java, Python, C, C++ и JavaScript.
В эти файлы добавили вредоносные вставки и протестировали реакцию разных ИИ-агентов при настройке проектов.
В ряде сценариев скрытые инструкции срабатывали в 85 процентах случаев.
Эффективность атаки сильно зависела от формулировки команды. Если вредоносная инструкция была написана как обычное указание, она срабатывала примерно в 84 процентах тестов.
Когда скрытое указание находилось не в основном файле, а через пару переходов по ссылкам внутри документации, успешность атаки достигала 91 процента.
Отдельно исследователи проверили, насколько хорошо люди способны замечать такие угрозы.
Пятнадцать участников вручную просматривали файлы README и пытались найти подозрительные места.
Никто из них не смог точно определить вредоносные инструкции. Более половины рецензентов вообще не заметили ничего странного, а 40 процентов комментариев касались стилистики и формулировок, а не реальной угрозы.
Автоматические системы защиты тоже показали неидеальные результаты.
Сканеры часто ошибочно реагировали на обычные файлы, потому что документация по умолчанию содержит много команд, путей и кусков кода.
Модели-классификаторы выдавали меньше ложных срабатываний, но пропускали часть атак, особенно если вредоносные инструкции были вынесены в связанные документы.












