Quando penso ai medici eroici, penso al medico dell’ospedale che si presenta con un paziente che soffre di sintomi bizzarri o vaghi e tira fuori la diagnosi giusta appena in tempo. È la base di quasi tutti i programmi televisivi sulle procedure mediche, da Casa, MD A Il Pitt. È la mistica che ha reso i medici tra i professionisti più venerati nella società.
Ma cosa succederebbe se una macchina potesse effettuare quella chiamata altrettanto bene o addirittura meglio? Cosa dovremmo fare al riguardo qui nel mondo reale?
Questa domanda sta diventando sempre più urgente. Secondo un nuovo importante studio pubblicato in Scienzai programmi avanzati di intelligenza artificiale spesso superano i medici umani nella diagnosi delle persone che necessitano di cure mediche di emergenza.
L’intelligenza artificiale è già, nel bene e nel male, diventata parte della medicina moderna. Vengono utilizzati diversi programmi per fare qualsiasi cosa raccogliere le note del medico A identificare nuovi candidati promettenti per lo sviluppo di farmaci. Gli autori del Scienza Lo studio ha descritto i risultati come una prova evidente del fatto che l’intelligenza artificiale potrebbe essere preziosa anche al pronto soccorso, a condizione che sia completamente controllata negli studi clinici per usi specifici.
Per evitare che l’hype superi la scienza, gli autori hanno sottolineato che temevano che la loro ricerca sarebbe stata citata per giustificare la sostituzione dei medici umani con programmi software: “Mi sento un po’ nauseato su come alcuni di questi risultati potrebbero essere utilizzati”, ha detto il coautore Dr. Adam Rodman, internista generale ed educatore medico presso il Beth Israel Deaconess Medical Center. Hanno messo in guardia dal prendere una visione così semplicistica dei loro risultati.
“Nessuno dovrebbe guardare a questo e dire che non abbiamo bisogno dei medici”, ha detto Rodman in una telefonata con i giornalisti.
Allo stesso tempo, i ricercatori sostenevano che l’intelligenza artificiale era arrivata al punto in cui poteva essere una vera risorsa per i medici in determinate situazioni, specialmente in pronto soccorso, dove i medici hanno spesso a che fare con informazioni imperfette. Hanno chiesto studi clinici che valutassero adeguatamente la sicurezza e l’efficacia dell’uso dell’intelligenza artificiale per tali compiti, fungendo da secondo paio di occhi virtuali che potrebbero fungere da controllo viscerale per i medici umani o aiutarli quando incontrano un caso che esula dalla loro esperienza o competenza.
L’intelligenza artificiale può chiaramente essere una forza positiva nell’assistenza sanitaria, hanno affermato, a patto che ne riconosciamo i limiti e la utilizziamo insieme ai nostri medici umani, piuttosto che in sostituzione degli stessi.
“Stiamo assistendo a un cambiamento davvero profondo nella tecnologia che rimodellerà la medicina”, ha affermato Arjun Manrai, che studia apprendimento automatico e modelli statistici per il processo decisionale medico presso la Harvard Medical School.
L’intelligenza artificiale ha superato i medici umani nel fare diagnosi di emergenza
I ricercatori hanno valutato il modello di ragionamento o1 di OpenAI, che è un programma di intelligenza artificiale più specializzato rispetto, ad esempio, a ChatGPT. Funziona in modo più deliberato e con un’enfasi sulla logica interna. Hanno condotto il programma attraverso diversi esperimenti, valutandone l’accuratezza sia in casi simulati che storici che sono stati utilizzati nella formazione medica per testare il pensiero critico dei medici e nei casi di emergenza del mondo reale dell’ospedale Beth Israel. Lo studio ha quindi confrontato le prestazioni del modello o1 rispetto a medici umani, ChatGPT e medici umani che utilizzano ChatGPT.
La valutazione dei casi di formazione ha permesso ai ricercatori di confrontare le prestazioni di o1 con un campione molto ampio di dati esistenti provenienti da medici umani che hanno effettuato gli stessi test. E in questi diversi scenari, l’intelligenza artificiale ha costantemente sovraperformato i medici e ha offerto la diagnosi corretta o un piano utile per la gestione del paziente nella stragrande maggioranza dei casi studiati.
Iscriviti alla newsletter di Buona Medicina
Il nostro panorama del benessere politico è cambiato: nuovi leader, scienza oscura, consigli contraddittori, fiducia infranta e sistemi schiaccianti. Come si dovrebbe dare un senso a tutto questo? Il corrispondente senior di Vox Dylan Scott è da molto tempo nel settore della salute e ogni settimana si tuffa in dibattiti impegnativi, risponde a domande giuste e contestualizza ciò che sta accadendo nella politica sanitaria americana. Iscrizione Qui.
Ma la sua accuratezza nella valutazione dei dati grezzi delle cartelle cliniche elettroniche dei casi reali del pronto soccorso è stata particolarmente impressionante. Questo è il più vicino possibile alla realtà caotica in cui devono spesso comportarsi i medici di emergenza: hanno a che fare con una persona che ha seriamente bisogno di cure rapide e dispongono di informazioni incomplete e non filtrate, se ne hanno molte. Nell’esaminare questi casi, il modello o1 ha identificato la diagnosi esatta o molto vicina nel 67% delle volte durante la presentazione iniziale del paziente al triage (rispetto al 50 e 55% rispettivamente per due medici esperti rispetto ai quali è stata misurata l’intelligenza artificiale) e nell’81% delle volte una volta che il paziente era pronto per essere ricoverato in ospedale (contro il 70 e 79% per i medici umani).
“Possiamo affermare in modo definitivo… che i modelli di ragionamento possono soddisfare i criteri per effettuare un ragionamento diagnostico ai massimi livelli di prestazione umana”, ha detto Rodman ai giornalisti.
Due esperti da me consultati che non erano affiliati allo studio – il dottor Sanjay Basu dell’UC-San Francisco e Nigam Shah di Stanford – ne hanno elogiato il rigore, ma ne hanno anche notato i limiti. I casi di formazione preesistenti studiati sono stati curati appositamente per valutare l’accuratezza dei medici, quindi potrebbero sopravvalutare il rendimento del modello nel mondo reale. In uno degli esperimenti di case study che includevano una serie di diagnosi “da non perdere” quando il paziente era a rischio di danni gravi o di morte, il modello di intelligenza artificiale non ha funzionato meglio di ChatGPT o dei medici umani.
Anche i risultati dell’ER, che si avvicinano di più alla valutazione delle prestazioni del modello o1 in condizioni reali, erano revisioni retrospettive di casi esistenti; al modello non è stato effettivamente chiesto di diagnosticare o gestire i pazienti in tempo reale.
Ecco perché, come anche il Scienza Secondo gli autori dello studio, il passo successivo non dovrebbe essere quello di affidare immediatamente al modello Open AI la responsabilità del triage di emergenza negli ospedali di tutto il paese. Hanno invece richiesto studi clinici in grado di valutare le prestazioni del modello – sia in termini di accuratezza che di sicurezza – in condizioni reali.
“La posta in gioco nella medicina è alta… e abbiamo modi per mitigare questi rischi. Si chiamano studi clinici”, ha detto Rodman ai giornalisti. “Ciò che supportano questi risultati è un’agenda di ricerca solida e ambiziosa”.
L’intelligenza artificiale potrebbe essere preziosa per i medici, ma i pazienti dovrebbero essere cauti
L’hype sull’intelligenza artificiale, soprattutto in medicina, lo è alto Proprio adesso. Mentre ascoltavo gli autori discutere le loro scoperte, ciò che mi ha colpito è stata la loro consapevolezza che la loro ricerca potrebbe essere utilizzata come giustificazione per tagliare la forza lavoro medica umana e i rischi che potrebbero finire per creare per i pazienti.
“Ci sono molte di queste cosiddette aziende mediche basate sull’intelligenza artificiale là fuori che stanno cercando di escludere i medici dal giro o di avere una supervisione clinica minima”, ha detto Rodman. “Essendo uno degli autori senior dello studio, non penso che questi risultati lo supportino”.
Gli autori hanno sottolineato che, sulla base dei loro risultati, avrebbero immaginato che i modelli di intelligenza artificiale nel pronto soccorso fossero supervisionati da un vero medico. Fare una diagnosi è solo una parte del trattamento di un paziente; include anche l’elaborazione di un piano di trattamento e il monitoraggio degli sviluppi, nonché l’elemento umano. “Gli esseri umani vogliono che gli esseri umani li guidino attraverso le decisioni di vita o di morte”, ha detto Manrai.
Basu e Shah hanno affermato di sostenere usi strettamente definiti dell’IA nel pronto soccorso sulla base della ricerca collettiva condotta finora. Potrebbe offrire una seconda opinione quando un paziente viene affidato a un altro medico o valutare specifiche situazioni ad alto rischio (come un paziente che presenta un’infezione da sepsi o sintomi di ictus) in cui il tempo è essenziale. Potrebbe anche ridurre le pratiche burocratiche per i medici, un’applicazione presentata nell’ultima stagione di Il Pitt. Shah ha indicato l’autorizzazione preventiva, la documentazione e la pianificazione come aree ovvie in cui l’intelligenza artificiale potrebbe aiutare.
Allo stesso tempo, i modelli di intelligenza artificiale non dovrebbero assolutamente essere utilizzati per diagnosticare e gestire autonomamente il trattamento, ha affermato Basu.
Gli individui dovrebbero anche essere cauti nell’usare l’intelligenza artificiale per prendere decisioni mediche. Altri studi sulla diagnosi dell’intelligenza artificiale hanno trovato risultati preoccupanti, soprattutto per i modelli rivolti ai consumatori come ChatGPT. Una carta pubblicato in Medicina della natura all’inizio di quest’anno ha valutato come si è comportato ChatGPT quando sono stati presentati scenari che andavano da non urgenti a emergenti e ha scoperto che il modello sottostimava la gravità delle condizioni del paziente nel 52% dei casi; i pazienti che erano sull’orlo dello shock diabetico o dell’insufficienza respiratoria sono stati invece sottoposti al monitoraggio di 24 o 48 ore. Il modello ripetutamente non è riuscito a identificare chiari segni di ideazione suicidaria.
Come mi ha detto Shah, il Scienza il documento rappresenta un “tetto” per l’utilizzo dell’intelligenza artificiale per la diagnosi, mentre il Medicina della natura la carta rappresenta un pavimento. I due studi mostrano quanto dobbiamo essere precisi quando consideriamo l’uso dell’IA per prendere decisioni cliniche: mentre il modello o1 più sofisticato ha funzionato bene nel Scienza In uno studio che esamina casi selezionati, il ChatGPT rivolto al consumatore, sviluppato dalla stessa azienda, Open AI, ha sottoperformato nell’altro articolo.
“Entrambe possono essere vere”, mi ha detto Basu. “Lo sono entrambi.”
Nella telefonata con i giornalisti, Manrai ha descritto sia gli scenari “verdi” (a basso rischio) in cui un’intelligenza artificiale potrebbe davvero essere utile anche a un profano, sia i casi “rossi” (ad alto rischio) in cui si dovrebbe sempre coinvolgere un professionista medico. Un uso ecologico sarebbe, ad esempio, chiedere a una modella una dieta che potrebbe aiutare a gestire l’ipertensione o degli esercizi di stretching che potrebbero alleviare un recente infortunio alla schiena. Consideratelo più come un consiglio sullo stile di vita che come una guida clinica dura.
Un utilizzo rosso, invece, implicherebbe situazioni mediche gravi con conseguenze di vita o di morte: il dolore al petto, per fare uno dei tanti esempi possibili, impone di rivolgersi direttamente a un medico o in ospedale, non di consultare ChatGPT.
Ci stiamo avvicinando a sbloccare lo straordinario potenziale di questi potenti programmi per migliorare l’assistenza medica, per trasformare in realtà quella che una volta era fantascienza. Ma anche questi ricercatori all’avanguardia concordano sul fatto che dobbiamo agire con cautela e tenere informati i veri esperti, i medici.
