Sono passati quasi due anni da quando il CEO di Microsoft, Satya Nadella, aveva predetto che l’intelligenza artificiale generativa avrebbe preso il sopravvento nel business della conoscenza, ma se guardiamo ad un tipico studio legale o banca d’investimento di oggi, l’onere ricade ancora sulla forza lavoro umana. Nonostante tutto il clamore sul “ragionamento” e sulla “pianificazione”, un nuovo studio della società di dati educativi Mercor spiega esattamente perché la rivoluzione dei robot è in fase di stallo: l’intelligenza artificiale non è in grado di gestire la complessità del lavoro reale.
Una verifica della realtà della teoria della “sostituzione”.
Mercor ha rilasciato un nuovo benchmark chiamato APEX-Agents ed è brutale. A differenza dei test convenzionali che chiedono all’intelligenza artificiale di scrivere una poesia o risolvere un problema di matematica, questo test utilizza domande reali di avvocati, consulenti e banchieri. Chiede ai modelli di completare attività in più fasi che richiedono il passaggio tra diversi tipi di informazioni.
Risultati? Anche i migliori modelli sul mercato (stiamo parlando di Gemini 3 Flash e GPT-5.2) non riescono a raggiungere il tasso di precisione del 25%. Gemini ha mantenuto la sua leadership con il 24%, mentre GPT-5.2 era subito dietro con il 23%. La maggior parte degli altri erano bloccati con gli adolescenti.
Perché l’intelligenza artificiale non supera il “test in ufficio”?
Brendan Foody, CEO di Mercor, sottolinea che il problema non è l’intelligenza grezza; è un contesto. Nel mondo reale, le risposte non vengono distribuite su un piatto d’argento. Per rispondere a una domanda sulla conformità al GDPR, un avvocato dovrebbe controllare un thread Slack, leggere una policy in PDF, guardare un foglio di calcolo e quindi sintetizzare il tutto.
Le persone cambiano contesto in modo naturale. Si scopre che l’intelligenza artificiale fa schifo in questo. Quando costringi questi modelli a cercare informazioni tra fonti “sparse”, si confondono, danno la risposta sbagliata o si arrendono completamente.
“Stagista inaffidabile”
Questo è un sollievo per chiunque sia preoccupato per la sicurezza del lavoro. Lo studio suggerisce che l’intelligenza artificiale attualmente funziona più come uno stagista inaffidabile che fa le cose bene un quarto delle volte, piuttosto che come un professionista esperto.
Tuttavia, i progressi sono spaventosamente rapidi. Solo un anno fa, questi modelli avevano un punteggio compreso tra il 5% e il 10%, ha affermato Foody. Adesso raggiungono il 24%. Quindi, anche se non sono ancora pronti per mettersi al volante, stanno imparando a guidare molto più velocemente di quanto ci aspettassimo. Ma per ora, la rivoluzione del “lavoro basato sulla conoscenza” è sospesa finché i robot non impareranno a eseguire più attività.
Link alla fonte: www.digitaltrends.com










