Anthropic выпустила мощнейшую ИИ-модель Claude Fable 5, внедрив жесткие меры безопасности

Компания Anthropic официально представила свою новую искусственную интеллектуальную модель под названием Claude Fable 5.

Презентация состоялась в начале июня, а информация о новинке была опубликована изданием CNBC.

Модель создана на базе ранее анонсированной системы Mythos, которая привлекла внимание экспертов еще в апреле.

Сервис станет доступен прежде всего корпоративным клиентам, а также платным подписчикам компании.

Главной особенностью Claude Fable 5 стали жесткие меры безопасности, которые блокируют ответы в наиболее чувствительных областях знаний.

Предыстория: почему Anthropic ограничивала доступ к предыдущей версии

Апрельская модель Mythos и ее уникальные способности

В апреле текущего года Anthropic представила модель Mythos, которая поразила исследовательское сообщество своими возможностями.

Система продемонстрировала способность эффективно выявлять уязвимости в программном обеспечении на уровне профессиональных специалистов по кибербезопасности.

Именно эта функция, потенциально полезная для защиты систем, одновременно создавала серьезные риски.

Злоумышленники могли использовать ту же самую способность для поиска брешей в защите с целью взлома или распространения вредоносного кода.

Ограничение доступа и работа над безопасностью

Руководство Anthropic приняло решение ограничить доступ к модели Mythos сразу после ее апрельской презентации.

Компания объяснила этот шаг потенциальными рисками неконтролируемого использования мощного инструмента.

На протяжении нескольких месяцев инженеры и исследователи безопасности Anthropic трудились над созданием защитных механизмов.

Им предстояло сохранить высокую производительность модели, но при этом исключить возможность получения опасных ответов.

Как работают жесткие меры безопасности в Claude Fable 5

Система перенаправления запросов

Claude Fable 5 оснащен интеллектуальными ограничителями, которые анализируют каждый входящий запрос пользователя.

Если система определяет, что вопрос относится к категории высокого риска, например, к кибербезопасности или синтетической биологии, срабатывает специальный протокол.

Модель не пытается самостоятельно ответить на опасный запрос, а перенаправляет его на менее мощную, но более безопасную систему.

Этой резервной моделью выступает Claude Opus 4.8, которая способна выдавать общие и безопасные ответы без углубления в опасные детали.

Таким образом, пользователь не получает инструкции по созданию вирусов или биологического оружия, но при этом не сталкивается с полным отказом от взаимодействия.

Блокировка чувствительных областей

В официальном заявлении Anthropic подчеркивается, что Claude Fable 5 имеет жесткие ограничения именно в наиболее чувствительных областях.

К ним относятся, в частности, методы проведения кибератак, способы обхода систем защиты и опасные биологические эксперименты.

При любой попытке получить информацию высокого риска система автоматически понижает уровень генерируемого ответа.

Такой подход позволяет компании соблюсти баланс между полезностью модели и ответственностью перед обществом.

Технические характеристики и стоимость новой модели

Высокие результаты в программировании и обработке знаний

По данным компании, Claude Fable 5 демонстрирует впечатляющие результаты в задачах программирования.

На ряде стандартных отраслевых тестов модель показала улучшение более чем на 10 процентов по сравнению с предыдущим флагманом Claude Opus 4.8.

Также высокие оценки получены в области обработки и структурирования сложных знаний.

Это делает новинку одной из самых производительных моделей на рынке, уступающей разве что некоторым закрытым разработкам конкурентов.

Параллельный выпуск Claude Mythos 5

Одновременно с Fable компания Anthropic представила обновленную версию апрельской модели под названием Claude Mythos 5.

Новинка построена на той же архитектуре, что и Claude Fable 5, но имеет одно важное отличие.

В отдельных областях Mythos 5 использует менее строгие ограничения, что делает ее более гибкой для исследовательских задач.

Предполагается, что доступ к этой версии будет предоставляться только аккредитованным организациям и специалистам по безопасности.

Ценовая политика

Стоимость использования Claude Fable 5 установлена на уровне 10 долларов за миллион входных токенов.

За миллион сгенерированных выходных токенов компания берет 50 долларов.

Эти цены ровно вдвое превышают тарифы на предыдущую модель Claude Opus 4.8.

Такая разница объясняется более высокой производительностью и дополнительными механизмами безопасности, внедренными в новую систему.

Значение релиза для индустрии искусственного интеллекта

Выпуск Claude Fable 5 знаменует собой важный тренд в развитии больших языковых моделей.

Крупнейшие игроки рынка все чаще делают ставку не просто на увеличение мощности, а на контролируемость и безопасность.

Anthropic показала, что даже самую опасную в потенциальном использовании модель можно адаптировать для массового доступа.

Главное условие это встраивание защитных механизмов на уровне архитектуры, а не поверхностных фильтров.

Успех этого подхода может стать примером для других компаний, разрабатывающих генеративный искусственный интеллект.