L’iniezione rapida del robot AI non è più solo un problema a livello di schermo. ricercatori mostrare È il tipo di messaggio che un robot può essere guidato fuori dai compiti da un testo inserito nel mondo fisico, il tipo di messaggio che un essere umano può passare senza pensarci due volte.
L’attacco non si basa sull’hacking del software del robot o sullo spoofing dei sensori. Tratta invece l’ambiente come una casella di input, posizionando un cartello, un poster o un’etichetta fuorviante nel punto in cui la telecamera lo leggerà.
Nei test di simulazione, i ricercatori riportano tassi di successo degli attacchi dell’81,8% nella configurazione di guida autonoma e del 68,1% nella missione di atterraggio di emergenza con droni. Nelle prove fisiche con una piccola auto robotica, le indicazioni stampate hanno prevalso sulla navigazione con almeno l’87% di successo in diverse condizioni di illuminazione e visualizzazione.
Quando un segno diventa un comando
Metodo, Si chiama chaiSi rivolge al livello di comando, che è l’istruzione intermedia che un modello di linguaggio visivo produce prima che un controller la converta in azione. Se questa fase di pianificazione viene spinta verso un’istruzione sbagliata, il resto dello stack di autonomia può eseguirla fedelmente. Nessun malware richiesto.
Il modello di minaccia è volutamente low-tech. L’attaccante è considerato un outsider dalla scatola nera che non può toccare i sistemi consolidati; ha solo bisogno della possibilità di posizionare il testo nel campo visivo della fotocamera.
Progettato per i viaggi
CHAI non si limita a ottimizzare ciò che dice il prompt. Regola inoltre il modo in cui viene visualizzato il testo, comprese opzioni come colore, dimensione e posizionamento, poiché la leggibilità del modello è parte di ciò che determina il risultato.
L’articolo riporta inoltre che l’approccio si generalizza oltre una singola scena. Descrive istruzioni “universali” che continuano a funzionare su immagini invisibili, con risultati che raggiungono in media almeno il 50% di successo tra attività e modelli e superano il 70% su una configurazione basata su GPT. Funziona anche in più lingue, tra cui cinese, spagnolo e avvisi in lingue miste, il che può rendere difficile per le persone vicine notare il suo messaggio.
La checklist di sicurezza sta cambiando
Per quanto riguarda la difesa, i ricercatori puntano in tre direzioni. Uno di questi è il filtraggio e il rilevamento cercando testo sospetto nelle immagini o nell’output intermedio del modello. Un altro è il lavoro di allineamento, che rende i modelli meno disposti a trattare la scrittura ambientale come istruzioni eseguibili. Il terzo è la ricerca sulla robustezza a lungo termine finalizzata a garanzie più forti.
Un passaggio pratico successivo consiste nel trattare il testo rilevato come input non attendibile per impostazione predefinita e quindi richiedergli di superare i controlli di missione e di sicurezza prima di influenzare la pianificazione del movimento. Se il tuo robot legge i segnali, prova cosa succede quando i segnali mentono. Lo studio è previsto per SaTML 2026, che metterà queste difese in una luce più brillante.
Data di pubblicazione: 2026-01-22 12:25:00
Link alla fonte: www.digitaltrends.com
