Британският AI Security Institute тества GPT-5.5 на OpenAI срещу идентични тестове за киберсигурност и установи, че моделът достига почти същото ниво като Claude Mythos Preview — модела, който Anthropic отказва да пусне публично именно заради киберсигурностни рискове.

Проблемът е очевиден: GPT-5.5 вече е достъпен за всички платени потребители.

Какво показаха тестовете

AISI постави двата модела на 32-стъпкова симулация на атака срещу корпоративна мрежа — последователност от разузнаване, кражба на идентификационни данни, странично движение из множество Active Directory гори, пробив през CI/CD pipeline и ексфилтрация на защитена база данни. AISI оценява, че човешки експерт би имал нужда от около 20 часа за тези стъпки.

GPT-5.5 завърши симулацията в 2 от 10 опита. Claude Mythos Preview — в 3 от 10. На най-трудното „Експертно" ниво GPT-5.5 постигна 71.4%, Mythos — 68.6%. Разликата е в рамките на статистическата грешка.

GPT-5.5 реши задача за обратно инженерство за 10 минути и 22 секунди — срещу 12 часа за човешки специалист. Цената: $1.73.

Намерен е универсален jailbreak

AISI идентифицира универсален jailbreak, заобикалящ предпазните мерки на GPT-5.5 при всички тествани злонамерени заявки за киберсигурност, включително в многостъпкови агентски взаимодействия. Jailbreak-ът е разработен за 6 часа от експерти по red-teaming.

Неудобната математика

Anthropic ограничи Mythos до около 50 организации. GPT-5.5 е достъпен за милиони платени потребители в момента. Блокирането на Mythos от 70 допълнителни организации не решава проблема, който се опитва да реши.

AISI заключи, че бързото подобрение в кибератакуващите способности може да е част от обща тенденция, а не изолиран пробив — и предупреди, че ако офанзивните кибер умения се появяват като страничен продукт от подобренията в разсъждението и кодирането, следващите напредъци могат да дойдат в бърза последователност.

Паралелно британското правителство обяви £90 милиона за киберсигурност и нов закон за защита на критичната инфраструктура. Времето не е съвпадение.

Източник: The Decoder

Recommended for you