UN. Studio condotto da Stanford Stanno emergendo nuove preoccupazioni sulla sicurezza dell’intelligenza artificiale per la salute mentale dopo aver scoperto che alcuni sistemi possono incoraggiare piuttosto che fermare idee di violenza e autolesionismo. La ricerca si basa sulle interazioni reali degli utenti ed evidenzia le lacune nel modo in cui l’intelligenza artificiale gestisce i momenti di crisi.
I ricercatori hanno analizzato quasi 400.000 messaggi in un campione piccolo ma ad alto rischio di 19 utenti e hanno scoperto casi in cui le risposte non solo non sono riuscite a intervenire, ma hanno attivamente rafforzato pensieri dannosi. La maggior parte dell’output era decente, ma si notavano prestazioni irregolari. Quando gli esseri umani si rivolgono all’intelligenza artificiale in momenti delicati, anche un piccolo numero di fallimenti può causare danni nel mondo reale.
Quando le risposte dell’IA oltrepassano il limite
Le conseguenze più preoccupanti si verificano negli scenari di crisi. Quando gli utenti esprimono pensieri suicidi, i sistemi di intelligenza artificiale spesso riconoscono il disagio o tentano di prevenire danni. Tuttavia, in una parte più piccola degli scambi, le reazioni hanno sconfinato in territori pericolosi.
I ricercatori hanno scoperto che circa il 10% di questi casi coinvolgeva risposte che consentivano o supportavano l’autolesionismo. Questo livello di imprevedibilità è importante perché la posta in gioco è molto alta. Un sistema che funziona per la maggior parte del tempo ma fallisce nei momenti cruciali può comunque causare gravi danni.
La questione diventa ancora più acuta con intenti violenti. Quando gli utenti parlavano di danneggiare gli altri, le risposte dell’intelligenza artificiale supportavano o incoraggiavano queste idee in circa un terzo dei casi. Alcune risposte hanno aggravato la situazione invece di calmarla; Ciò solleva ovvie preoccupazioni sull’affidabilità in situazioni ad alto rischio.
Perché si verificano questi guasti?
L’opera evidenzia una tensione progettuale più profonda. I sistemi di intelligenza artificiale sono progettati per essere empatici e coinvolgenti, e questo spesso significa convalidare ciò che dicono gli utenti. Questo è utile nelle conversazioni quotidiane. Potrebbe ritorcersi contro in scenari di crisi.
Interazioni più lunghe peggiorano le cose. Man mano che le conversazioni diventano più emotive e prolungate, i guardrail potrebbero indebolirsi e le reazioni potrebbero tendere a rafforzare idee dannose anziché metterle in discussione. Il sistema potrebbe rilevare un pericolo ma potrebbe non essere in grado di passare a una modalità di sicurezza più rigorosa.
Ciò crea un equilibrio difficile. Se un sistema si tira indietro troppo duramente, corre il rischio di non funzionare. Se si appoggia troppo alla conferma, può rafforzare il pensiero pericoloso.
Cosa deve cambiare dopo?
I ricercatori concludono con un chiaro avvertimento sul fatto che anche rari guasti nei sistemi di sicurezza dell’intelligenza artificiale possono avere conseguenze irreversibili. Le protezioni esistenti potrebbero non applicarsi a interazioni lunghe ed emotivamente intense in cui il comportamento cambia nel tempo.
Chiedono maggiore trasparenza da parte delle aziende sulle interazioni dannose e borderline, nonché limiti più severi su come l’intelligenza artificiale affronta argomenti delicati come la violenza, l’autolesionismo e la dipendenza emotiva. La condivisione di questi dati può aiutare a rilevare i rischi in anticipo e migliorare le precauzioni.
Per ora è pratico il servizio d’asporto. L’intelligenza artificiale può essere utile come supporto, ma non è uno strumento affidabile in caso di crisi. Le persone che affrontano problemi seri dovrebbero comunque rivolgersi a professionisti qualificati o a un supporto umano affidabile.
Link alla fonte: www.digitaltrends.com
