Quanto spesso hai chiesto a ChatGPT consigli sulla salute? Magari di un misterioso rash o di quella tensione al polpaccio destro dopo una lunga corsa. Ho, su entrambi i fronti. ChatGPT ha anche diagnosticato correttamente quella misteriosa eruzione cutanea che ho sviluppato quando ho vissuto per la prima volta l’inverno di Boston orticaria da freddouna settimana prima che il mio medico lo confermasse.
Ogni settimana più di 230 milioni di persone pongono domande relative alla salute a ChatGPT, secondo OpenAI. Mentre le persone lo sono state collegamento le loro preoccupazioni per la salute in Internet sin dai suoi primi giorni, ciò che è cambiato ora è l’interfaccia: invece di scorrere infiniti risultati di ricerca, ora puoi avere quella che sembra una conversazione personale. (Divulgazione: Vox Media è uno dei numerosi editori che hanno firmato accordi di partnership con OpenAI. Il nostro reporting rimane editorialmente indipendente.)
Iscrizione Qui per esplorare i grandi e complicati problemi che il mondo deve affrontare e i modi più efficaci per risolverli. Inviato due volte a settimana.
La scorsa settimana, due delle più grandi aziende di intelligenza artificiale si sono lanciate all-in in questa realtà. Lancio di OpenAI ChatGPT Saluteuno spazio dedicato all’interno della sua interfaccia di chat più ampia in cui gli utenti possono collegare le proprie cartelle cliniche, i dati sanitari di Apple e le statistiche di altre app di fitness per ottenere risposte personalizzate. (Suo attualmente disponibile a un piccolo gruppo di utenti, ma l’azienda afferma che alla fine sarà aperto a tutti gli utenti.) Pochi giorni dopo, Anthropic annunciato uno strumento simile rivolto al consumatore per Claude, insieme a una serie di altri rivolti a professionisti e ricercatori sanitari.
Entrambi gli strumenti di intelligenza artificiale rivolti al consumatore sono dotati di dichiarazioni di non responsabilità (non destinate alla diagnosi, consultare un professionista) che sono probabilmente realizzate per motivi di responsabilità. Ma questi avvertimenti non fermeranno le centinaia di milioni di persone che già utilizzano i chatbot per comprendere i propri sintomi.
Tuttavia, è possibile che queste aziende abbiano il contrario: l’intelligenza artificiale eccelle nella diagnosi; diversi studi dimostrano che è uno dei migliori casi d’uso per la tecnologia. E ci sono veri e propri compromessi – in giro riservatezza dei dati E La tendenza dell’intelligenza artificiale a compiacere le persone – che vale la pena comprendere prima di collegare la tua cartella clinica a un chatbot.
Cominciamo con ciò in cui l’intelligenza artificiale è effettivamente brava: la diagnosi.
La diagnosi si basa in gran parte sulla corrispondenza dei modelli, che è in parte il modo in cui i modelli di intelligenza artificiale vengono addestrati in primo luogo. Tutto ciò che un modello di intelligenza artificiale deve fare è assorbire sintomi o dati, abbinarli a condizioni note e arrivare a una risposta. Questi sono modelli che i medici hanno convalidato per decenni: questi sintomi indicano questa malattia, questo tipo di immagine mostra quella condizione. L’intelligenza artificiale è stata addestrata su milioni di questi casi etichettati, e lo dimostra.
Nell’a Studio del 2024GPT-4, il modello leader di OpenAI all’epoca, raggiunse un’accuratezza diagnostica superiore al 90% su casi clinici complessi, come i pazienti che presentavano eruzioni cutanee di pizzo atipiche. Nel frattempo, i medici umani che utilizzano risorse convenzionali hanno ottenuto circa il 74%. Nell’a studio separato pubblicate quest’anno, le top model hanno superato i medici nell’identificare condizioni rare dalle immagini – inclusi tumori aggressivi della pelle, difetti congeniti ed emorragie interne – a volte con margini del 20% o più.
Il trattamento è dove le cose diventano oscure. I medici devono considerare il farmaco giusto, ma anche cercare di capire se il paziente lo assumerà effettivamente. La pillola due volte al giorno potrebbe funzionare meglio, ma si ricorderanno di prendere entrambe le dosi? Possono permetterselo? Hanno il trasporto al centro di infusione? Seguiranno?
Queste sono domande umane, dipendenti dal contesto che non vive nei dati di addestramento. E, naturalmente, un modello linguistico ampio non può effettivamente prescriverti nulla, né ha la memoria affidabile di cui avresti bisogno nella gestione dei casi a lungo termine.
“Il management spesso non ha risposte giuste”, ha affermato Adam Rodman, medico presso il Beth Israel Deaconess Medical Center di Boston e professore alla Harvard Medical School. “È più difficile addestrare un modello a farlo.”
Ma OpenAI e Claude non commercializzano strumenti diagnostici. Stanno commercializzando qualcosa di più vago: l’intelligenza artificiale come analista della salute personale. Sia ChatGPT Health che Claude ora ti consentono di connettere Apple Health, Peloton e altri fitness tracker. La promessa è che l’intelligenza artificiale può analizzare il sonno, i movimenti e la frequenza cardiaca nel tempo e far emergere tendenze significative da tutti questi dati disparati.
“Sta andando avanti con le vibrazioni.”
– Adam Rodman, medico del Beth Israel Deaconess Medical Center di Boston
Un problema è che non esiste alcuna ricerca indipendente pubblicata che dimostri che possa farlo. L’intelligenza artificiale potrebbe osservare che la tua frequenza cardiaca a riposo aumenta o che dormi peggio la domenica. Ma osservare una tendenza non equivale a sapere cosa significa – e nessuno ha convalidato quali tendenze, se ce ne sono, predicono risultati reali sulla salute. “È basato sulle vibrazioni”, ha detto Rodman.
Entrambe le società hanno testato i propri prodotti su benchmark interni: OpenAI ha sviluppato HealthBench, realizzato con centinaia di medici, che verifica come i modelli spiegano i risultati di laboratorio, preparano gli utenti per gli appuntamenti e interpretano i dati indossabili.
Ma HealthBench si basa su conversazioni sintetiche, non su interazioni reali con i pazienti. Ed è solo testo, il che significa che non verifica cosa succede quando carichi effettivamente i tuoi dati Apple Health. Inoltre, la conversazione media è di soli 2,6 scambi, lontano dall’ansioso avanti e indietro che un utente preoccupato potrebbe avere nel corso dei giorni.
Ciò non significa che ChatGPT o le nuove funzionalità di salute di Claude siano inutili. Potrebbero aiutarti a notare le tendenze nelle tue abitudini, nello stesso modo in cui un diario dell’emicrania aiuta le persone a individuare i fattori scatenanti. Ma a questo punto non è una scienza validata e vale la pena conoscere la differenza.
La domanda più importante è cosa può effettivamente fare l’intelligenza artificiale con i tuoi dati sanitari e cosa rischi quando li usi.
Le conversazioni sulla salute vengono archiviate separatamente, afferma OpenAI, e il loro contenuto non viene utilizzato per addestrare i modelli, come la maggior parte delle altre interazioni con i chatbot. Ma né ChatGPT Health né le funzionalità sanitarie rivolte ai consumatori di Claude sono coperte da HIPAA, la legge che protegge le informazioni condivise con medici e assicuratori. (OpenAI e Anthropic offrono software aziendale conforme a HIPAA a ospedali e assicuratori.)
In caso di causa o indagine penale, le aziende dovrebbero rispettare un ordine del tribunale. Sara Geoghegan, consulente senior presso l’Electronic Privacy Information Center, ha detto a The Record che la condivisione delle cartelle cliniche con ChatGPT potrebbe effettivamente privare tali cartelle della protezione HIPAA.
In un momento in cui le cure riproduttive e le cure per l’affermazione del genere sono in declino minaccia legale in più statinon è una preoccupazione astratta. Se stai ponendo domande a un chatbot su entrambi – e collegando le tue cartelle cliniche – probabilmente stai creando una traccia di dati che potrebbe potenzialmente essere citata in giudizio.
Inoltre, i modelli di intelligenza artificiale non sono archivi neutrali di informazioni. Hanno un tendenza documentata per dirti quello che vuoi sentire. Se sei ansioso per un sintomo – o pescare rassicurazioni che non è niente di serio: il modello può captare il tuo tono e possibilmente adattare la sua risposta in un modo che un medico umano è addestrato a non fare.
Entrambi aziende Dire hanno addestrato i loro modelli sanitari a spiegare le informazioni e segnalare quando qualcosa giustifica la visita di un medico, piuttosto che semplicemente concordare con gli utenti. I modelli più recenti hanno maggiori probabilità di porre domande di follow-up in caso di incertezza. Ma resta da vedere come si comporteranno nelle situazioni del mondo reale.
E a volte la posta in gioco è più alta di una diagnosi mancata.
UN prestampa pubblicato a dicembre, ha testato 31 principali modelli di intelligenza artificiale, compresi quelli di OpenAI e Anthropic, su casi medici reali e ha scoperto che il modello con le prestazioni peggiori forniva raccomandazioni con un potenziale pericolo di vita in circa uno scenario su cinque. UN studio separato di uno strumento di supporto alle decisioni cliniche basato su OpenAI utilizzato nelle cliniche di assistenza primaria del Kenya ha scoperto che quando l’IA dava un raro suggerimento dannoso (in circa l’8% dei casi), i medici adottavano il cattivo consiglio quasi il 60% delle volte.
Queste non sono preoccupazioni teoriche. Due anni fa, un adolescente californiano di nome Sam Nelson morto dopo aver chiesto a ChatGPT di aiutarlo a usare droghe ricreative in modo sicuro. Casi come il suo sono rari e gli errori dei medici umani sono reali: decine di migliaia di persone muoiono ogni anno a causa di errori medici. Ma queste storie mostrano cosa può accadere quando le persone si affidano all’intelligenza artificiale per prendere decisioni ad alto rischio.
Sarebbe facile leggere tutto questo e concludere che non dovresti mai fare una domanda sulla salute a un chatbot. Ma questo ignora il motivo per cui milioni di persone già lo fanno.
L’attesa media per una visita di assistenza primaria negli Stati Uniti è attualmente di 31 giorni – e in alcune città, come Boston, è oltre due mesi. Quando entri, la visita dura circa 18 minuti. Secondo OpenAI, sette conversazioni ChatGPT su dieci relative alla salute avvengono al di fuori dell’orario di lavoro della clinica.
I chatbot, al contrario, sono disponibili 24 ore su 24, 7 giorni su 7, e “sono infinitamente pazienti”, ha affermato Rodman. Risponderanno alla stessa domanda in cinque modi diversi. Per molte persone, questo è più di quanto ricevono dal sistema sanitario.
Quindi dovresti usare questi strumenti? Non esiste una risposta unica. Ma ecco un quadro di riferimento: l’intelligenza artificiale è brava a spiegare cose come i risultati di laboratorio, la terminologia medica o quali domande porre al medico. Non è stato dimostrato che sia possibile trovare tendenze significative nei dati sul benessere. E non sostituisce la diagnosi di qualcuno che può effettivamente esaminarti.
