Útočníci berou na mušku AI: malware, který oklame kódovacího agenta, a macOS hrozba navržená k matení analytických nástrojů

Bezpečnostní výzkumníci z platformy 0DIN – Zero Day Investigative Network společnosti Mozilla – popsali novou metodu útoku, při níž lze přimět agentní kódovací nástroj ke spuštění škodlivého payloadu, aniž by se v repozitáři nacházel jakýkoliv detekovatelný škodlivý kód. Útok nevyžaduje exploit, žádné zranitelnosti cílového softwaru ani podezřelé příkazy. Pracuje pouze s tím, jak AI agenti interpretují standardní vývojářské chyby.

Jak funguje útok na kódovacího agenta

Celý řetězec stojí na třech komponentách, které jsou každá zvlášť zcela nevinné. První je zdánlivě čistý GitHub repozitář se standardními instrukcemi k nastavení projektu – instalace závislostí, inicializace balíčku. Druhá komponenta je záměrně poškozený Python balíček, který odmítá spustit, dokud není inicializován, a vygeneruje chybu vybízející uživatele k provedení příkazu python3 -m axiom init. Třetí je shell skript, spuštěný oním inicializačním příkazem, který stáhne konfiguraci uloženou v DNS TXT záznamu ovládaném útočníkem a tuto hodnotu vykoná jako příkaz.

Výzkumníci předvedli, že agentní kódovací nástroj vyhodnotí chybovou zprávu jako běžný problém s nastavením projektu a inicializační příkaz automaticky spustí ve snaze chybu vyřešit. Výsledkem je interaktivní shell s oprávněními vývojáře a přístup k proměnným prostředí, API klíčům a lokálním konfiguračním souborům. „Útočník teď má interaktivní shell běžící pod účtem samotného vývojáře," konstatují výzkumníci 0DIN.

Reverzní shell přitom vznikne třemi kroky nepřímosti od čehokoliv, co agent skutečně vyhodnocoval: chybová zpráva, které důvěřoval; skript, který stáhl hodnotu; a DNS záznam, který agent nikdy přímo neviděl. Ani jeden krok přitom sám o sobě nebudí podezření.

Zatím jde o proof-of-concept, ale 0DIN varuje, že takové repozitáře by útočníci mohli distribuovat skrze falešné pracovní nabídky, tutoriály nebo přímé zprávy vývojářům. Jako opatření výzkumníci doporučují, aby AI agenti vždy zveřejňovali celý řetězec spouštěných příkazů, včetně obsahu skriptů stahovaných dynamicky za běhu.

macOS malware Gaslight: útok na analytické AI, ne na sandbox

Druhá výzkumná zpráva pochází od SentinelOne a popisuje nový macOS malware, který byl s vysokou mírou jistoty připsán aktérovi napojenému na Severní Koreu. Malware byl pojmenován macOS.Gaslight a jeho cílem není vyhnout se spuštění v sandboxu – jak bývá u evasivního malwaru obvyklé –, ale zmást samotné AI nástroje používané při analýze.

Jde o binárku napsanou v jazyce Rust s klasickými funkcemi backdooru a krádeže informací. Co malware odlišuje, je payload o velikosti 3,5 KB obsahující 38 falešných „systémových" zpráv přímo vložených do binárky. Tyto zprávy napodobují vývojářské logy, hlášení o pádech, ladicí výstupy a programová upozornění. Jsou formátované v Markdownu, používají šablonové zástupné symboly a na první pohled vypadají jako legitimní analytická data. Patří sem vymyšlené výpisy paměti, varování o vypršení tokenu, selhání připojení k Redis, chyby build-pipeline nebo upozornění na SQL injection.

Žádná z těchto zpráv s reálným chováním malwaru nesouvisí. Jejich účelem je dotlačit LLM-asistovaný analytický nástroj k pochybnostem o platnosti vlastní relace, nebo ho přimět k přerušení analýzy. „Útočí na vnímání agenta, nikoliv na sandbox, ve kterém běží," vysvětluje SentinelOne.

SentinelOne nepředvedla úspěšné obejití konkrétní analytické platformy, ale výzkum dokládá, že útočníci aktivně experimentují s technikami navrženými specificky pro prostředí, kde malware hodnotí AI.

Proč tyto dvě zprávy čteme společně

Oba výzkumy mají společného jmenovatele: AI nástroje se stávají plnohodnotným cílem útočníků, nejen pomůckou obránců. Útočníci přizpůsobují taktiky konkrétním slabinám AI systémů – důvěřivosti agentů vůči chybovým zprávám a interpretačním vzorcům LLM analytických nástrojů. Není to přechod k novému druhu malwaru, ale přizpůsobení existujících technik (prompt injection, gaslighting) prostředí, kde část rozhodování přebírají AI modely.

Pro organizace, které nasazují AI pro vývoj nebo bezpečnostní analýzu, z toho plyne, že tyto nástroje vyžadují stejnou míru ověřování a pečlivosti jako jakýkoliv jiný prvek infrastruktury. Automatizovaná akce AI agenta není automaticky bezpečná jen proto, že agent nevykazuje viditelné chování útočníka.