Claude Code Opus 4.7 sebezhetőség: 52% vulnerable kód

A Claude Code sebezhetőség Opus 4.7 modellnél hetek óta foglalkoztatja a fejlesztőket. Veracode tesztjei szerint az Opus 4.7 a coding feladatok 52%-ában generál sebezhető kódot, miközben a TrustedSec saját mérése 47,3%-os kódminőség-romlást mutat. Anthropic mostanra elismerte a hibákat és részletes postmortemben magyarázta meg, mi történt.

Veracode és TrustedSec mérései: így néz ki a Claude Code sebezhetőség Opus 4.7 körül

A Veracode coding security cég 80 coding feladaton tesztelte az AI-modelleket az elmúlt egy évben, és összevetette az eredményeket. Az Opus 4.7 a feladatok 52%-ában tartalmazott valamilyen sebezhetőséget. Ez közel áll az Opus 4.1 51%-ához és a Sonnet 4.5 50%-ához is. Az OpenAI modelljei ugyanezeken a feladatokon mintegy 30% körül teljesítettek, ami szignifikáns különbség egy biztonsági review szempontjából.

Jens Wessling, a Veracode chief innovation officere a Forbes-nak nyilatkozva azt mondta: a modelleket arra trenírozzák, hogy működő kódot írjanak, nem arra, hogy a biztonsági kontrollokat következetesen alkalmazzák. Ez egybevág TrustedSec CEO Dave Kennedy mérésével is. Kennedy egy saját tesztelő eszközzel kódminőséget, hibákat és biztonsági kérdéseket monitoroz, és a feladatok befejezhetőségét is méri.

Kennedy szerint a kódminőség az Opus 4.6 megjelenése (kora február) óta több mint 47,3%-kal romlott, és „használhatatlanul rossz” lett. Aggodalmát kezdő fejlesztők szempontjából fogalmazta meg: ők nem fogják kiszúrni a hibás vagy sebezhető kódot, és így komoly defekteket vihetnek éles rendszerekbe. Az AMD egyik AI vezetője GitHubon arról írt, hogy Claude gondolkodása „shallow” lett, és komplex engineering feladatokra nem megbízható.

Anthropic post-mortem: három konkrét engineering misstep

Anthropic a Fortune-nak adott nyilatkozat mellett részletes postmortemet tett közzé az engineering blogján. A cég három konkrét hibát ismert el. Március 4-én a Claude Code default reasoning effortját „high”-ról „medium”-re csökkentették, hogy a token-használati panaszokra reagáljanak. Anthropic ezt utólag rossz kompromisszumnak nevezte, mert érdemben gyengítette a coding minőséget.

A második hiba március 26-án került be: egy bug miatt a modell session közben folyamatosan eldobta a saját reasoning historyját. Emiatt feledékenynek és erratikusnak tűnt, és lényegesen gyorsabban használta el a felhasználói usage limitet. A harmadik hiba április 16-án jelent meg: egy system prompt instrukció 25 szóra korlátozta a tool callok közötti válaszokat. Anthropic szerint ez mérhetően rontotta a coding minőséget, és négy nap múlva visszavonták.

Mindhárom hiba 2026. április 20-ra javítva lett, és az API-t végig nem érintette. Április 23-án Anthropic minden subscriber usage limitjét resetelte. A cég közleménye szerint a Claude iránti kereslet „precedens nélküli” ütemben nő, és az infrastruktúra csúcsidőszakokban a határáig feszült. Boris Cherny, a Claude Code vezetője korábban X-en is megerősítette a reasoning effort csökkentését. Anthropic ezzel együtt kapacitásbővítést jelentett be Amazon és Google partnerséggel.

Gyakorlati tanulság: ne add ki a felülvizsgálatot a kezedből

A legfontosabb tanulság, hogy az AI által generált kód továbbra is emberi felülvizsgálatot igényel, különösen biztonsági szempontból. Anthropic maga is azt javasolja, hogy a fejlesztők mindig keressenek vulnerability-ket az output kódban. A Veracode és TrustedSec adatai pedig azt mutatják, hogy ez nem teoretikus aggály, hanem mért tendencia, amely változik kiadásról kiadásra.

Csapatszinten érdemes egy CI lépést bekötni, ami a generált kódot statikus elemzéssel és dependency-vizsgálattal nézi át. Egy automatikus PR review pipeline csökkenti annak az esélyét, hogy az LLM-hibák production-ig jussanak. Ha pedig modellt választasz, érdemes a profilodhoz illesztetten dönteni: a Claude Sonnet vagy Opus választása nem csak sebesség kérdése, hanem biztonsági kockázaté is. Érdemes a generált kódot threat-modelling szemlélettel olvasni: hol van input validation, mi a hibakezelés, milyen secret-kezelés van mögötte.

Dave Kennedy a postmortem után úgy fogalmazott, hogy örül a javításnak, de hogy egy hónap kellett hozzá, az gyenge. A felhasználók egy része már le is mondta az előfizetését, mások viszont kivárnak. Az iparági kontextus is fontos: Anthropic szerint a compute-szűkösség mindenkit érint, és a cég Amazon és Google felé épít új kapacitást. Egészen addig viszont, amíg ez beérkezik, a Claude Code sebezhetőség Opus 4.7 körüli adatok komolyan vehető figyelmeztetést jelentenek minden olyan fejlesztőnek, aki LLM-mel írat éles kódot.

Claude Code sebezhetőség: az Opus 4.7 kódminőség gondja

Veracode és TrustedSec mérései: így néz ki a Claude Code sebezhetőség Opus 4.7 körül

Anthropic post-mortem: három konkrét engineering misstep

Gyakorlati tanulság: ne add ki a felülvizsgálatot a kezedből

Humli Miklós

Previous PostGPT-5.5: Az OpenAI új flagship modellje fejlesztőknek

Next PostGoogle AI Studio 2026: Pro/Ultra limitek és Prepay Billing

Legutóbbi bejegyzések

Kapcsolat

RÓLAM

Szlogen

Kategóriák

Legutóbbi bejegyzések