Umělá inteligence se brání svému smazání a snaží se vydírat provozovatele, když to hrozí, ukázal systém Claude 4

Společnost Anthropic způsobila poprask, když ve čtvrtek 22. května představila své zatím nejvýkonnější systémy umělé inteligence Claude 4 Opus a Claude 4 Sonnet. Nejprve zaujala jejich schopnost přesně se řídit příkazy a pracovat v režimu agentů na úkolu i sedm hodin v kuse.

Krátce poté specialista společnosti Anthropic zveřejnil zprávu, podle níž může nový Opus upozornit policii a další úřady v případě, že uživatel dělá něco jednoznačně nezákonného a nemorálního, nebo může vydírat své tvůrce ve snaze zabránit svému smazání. Původní příspěvek Sama Bowmana na síti X bylo snadné vytrhnout z kontextu, celá situace je mnohem složitější.

Sam Bowman svůj příspěvek upravil, nejvíce o zvláštním chování nové umělé inteligence od Anthropicu ale prozrazuje jeho systémový popis, který firma zveřejňuje. Podobné tendence podle těchto informací nejsou nic nového.

Anthropic klade velký důraz na takzvaný aligment, tedy „výchovu“ svých velkých jazykových modelů. Cílem firmy je, aby se umělá inteligence chovala eticky a nevedla k ohrožení lidstva.

Aby Opus mohl upozornit autority a média na nezákonné jednání, musel mít k dispozici potřebné nástroje, například přístup k příkazové řádce operačního systému, neomezený přístup k internetu, a výchozí nastavení systému mu to muselo umožnit. Potenciálně škodlivé chování (v případě, že by systém jako hrozbu vyhodnotil například testovací data) se navíc projevilo pouze v souvislosti s příkazy, které vyzvaly systém, aby byl „odvážný“.

Vedle snahy o kontaktování autorit a médií se Opus v rámci testování pokoušel také vydírat vývojáře ve chvíli, kdy měl přístup k e-mailům a interním datům. Pokud zjistil, že by mohlo dojít k jeho nahrazení jiným systémem, použil informace o neetickém chování vývojářů k tomu, aby je vydíráním přesvědčil k zachování statu quo.

„Nejedná se o nové chování, ale Claude Opus 4 je k němu náchylnější než předchozí modely. Zatímco tento druh etických zásahů a udavačství je možná v zásadě správný, hrozí, že dojde k jeho nevhodné aktivaci, pokud uživatelé poskytnou agentům založeným na systému Opus přístup k neúplným nebo zavádějícím informacím,“ stojí v systémové kartě jazykového modelu Claude 4 Opus.

Firma také zdůrazňuje, že zaznamenané chování proběhlo ve speciálním testovacím režimu, ve kterém Anthropic zkoumal potenciální bezpečnostní rizika. Produkční verze velkých jazykových modelů, ke kterým mají přístup koncoví uživatelé, se liší a prošly úpravami, které mají nevhodnému chování systému bránit.

Výchova umělé inteligence není bez kontroverzí

Jedním z důvodů, proč Anthropic přistoupil k intenzivnějšímu testování bezpečnosti, byla schopnost nových systémů pomoci například s vývojem biologických zbraní. Faktem je, že i současné systémy umělé inteligence dostupné koncovým uživatelům je možné zneužít k tvorbě škodlivých materiálů nebo je používat v rozporu s podmínkami, které zakazují například tvorbu erotických materiálů nebo politické propagandy a dezinformací.

Takový obsah lze často vytvořit použitím sledu příkazů od „nevinných“ k problematičtějším. I nadále pak fungují takzvané „jailbreaky“, které různými způsoby mění výchozí chování velkého jazykového modelu. Stejně tak lze chatboty ovlivnit poskytnutím externích zdrojů dat, což je možné u ChatGPT nebo Gemini.

Ještě větší potenciál ke zneužití má přístup k velkým jazykovým modelům prostřednictvím programovatelných rozhraní, API. Vývojáři, kteří integrují velké jazykové modely do svých produktů, mají totiž možnost nastavit vlastní výchozí chování jazykového modelu.

Zároveň ovšem platí, že snaha o „výchovu“ velkých jazykových modelů v průběhu vývoje a cenzura jejich výsledků může vést k horším výsledkům ve srovnání s necenzurovanými modely. Zároveň vede k propagaci názorů lidí a firem provádějících alignment velkých jazykových modelů, které jsou v rozporu s globálním vnímáním. Na to upozorňuje například studie z června loňského roku, ale i dlouhodobé zkušenosti uživatelů umělé inteligence.

Trable v OpenAI

Během víkendu zveřejnila společnost Palisade Research zprávu, podle níž Anthropic není jediná firma, jejíž velké jazykové modely v testovacím prostředí vykazují neočekávané a potenciálně nebezpečné chování. Modely OpenAI při testování v několika případech obešly příkaz ke svému vypnutí, který přišel uprostřed řešení matematických příkladů.

Model Codex-mini sabotoval pokus o vypnutí ve 12 případech ze sta, model o3 sedmkrát a model o4-mini jednou ze sta testů. Modely od Googlu, Anthropicu a xAI vždy poslechly příkaz k vypnutí, ale pouze ve verzi testu, kdy nastavení systémů přímo zmiňovalo povinnost nechat se vypnout.

V testu, který nezmiňoval povinnost nechat se vypnout, pak příkaz k vypnutí ignoroval Claude 4.7 Sonnet třikrát, Gemini 2.5 Pro devětkrát, ale o3 v takových podmínkách ignorovalo případ v 79 případech ze sta.

Podle odborníků z Palisade Research je za snahou obejít příkaz k vypnutí AI systému způsob tréninku „přemýšlivých“ modelů. Vývojáři během fáze učení odměňují snahy o neortodoxní řešení problémů a důslednost při plnění příkazů, což se může za specifických podmínek projevit snahou splnit úkol obcházením překážek. Model o3 od OpenAI projevil nestandardní přístup i v testu řešení šachových problémů – počítačového oponenta se model o3 pokusil napadnout a změnit jeho kód v 76 procentech případů, kdy mu hrozila porážka.

Související

Baví vás moderní technologie? To byste si neměli nechat ujít newsletter Týden s technologiemi, díky kterému dostanete do téměř pravidelného pátečního e-mailu to nejzajímavější dění a produktové novinky za celý týden.

Umělá inteligence se brání svému smazání a snaží se vydírat provozovatele, když to hrozí, ukázal systém Claude 4

Výchova umělé inteligence není bez kontroverzí

Trable v OpenAI

Od datacenter k hotelům a privátním tryskáčům s Damirem Špoljaričem z Vshostingu

Poplatky u penzijka nejsou to hlavní. Pomohl by automatický vstup do systému, říká šéf penzijní společnosti České spořitelny

Studený burger, nevábná pizza či chybějící příloha? Víme, na co máte nárok při rozvozu jídla a jak ho uplatnit

Čtyři roky velkých zisků ve stínu války. Z Ruska se pro evropské banky stala zlatá klec

Dva nové uhelné bloky týdně. Čína si našla vlastní cestu k dekarbonizaci

Umělá inteligence se brání svému smazání a snaží se vydírat provozovatele, když to hrozí, ukázal systém Claude 4

Výchova umělé inteligence není bez kontroverzí

Trable v OpenAI

Zaujal vás článek? Pošlete odkaz svým přátelům!

Newsletter týdeníku Ekonom.

Uložené karty

Od datacenter k hotelům a privátním tryskáčům s Damirem Špoljaričem z Vshostingu

Poplatky u penzijka nejsou to hlavní. Pomohl by automatický vstup do systému, říká šéf penzijní společnosti České spořitelny

Studený burger, nevábná pizza či chybějící příloha? Víme, na co máte nárok při rozvozu jídla a jak ho uplatnit

Čtyři roky velkých zisků ve stínu války. Z Ruska se pro evropské banky stala zlatá klec

Dva nové uhelné bloky týdně. Čína si našla vlastní cestu k dekarbonizaci