Parece inevitable que el futuro de la medicina implique una IA, y las escuelas de medicina ya alientan a los estudiantes a usar modelos de idiomas grandes. “Me temo que estas herramientas pueden erosionar mi capacidad para hacer un diagnóstico independiente”, dijo Benjamin Popokh, estudiante de medicina de la Universidad de Texas Southwestern. Popokh decidió convertirse en médico después de la muerte de un primo de doce años de un tumor cerebral. Durante una rotación reciente, sus maestros le pidieron a su clase que trabajara en un caso utilizando herramientas de IA como ChatGPT y OpenEvidence, una LLM médica cada vez más popular que ofrece acceso gratuito a profesionales de la salud. Cada chatbot diagnosticó correctamente un coágulo de sangre en los pulmones. “No había un grupo de control”, dijo Popokh, lo que significa que ninguno de los estudiantes trabajó en el caso sin ayuda. Durante un tiempo, Popokh se encontró usando IA después de casi todas las reuniones con un paciente. “Comencé a sentirme sucio, presentando mis pensamientos a los médicos, sabiendo que, de hecho, eran los pensamientos de la IA”, me dijo. Un día, cuando salió del hospital, tuvo un logro inquietante: no había pensado en un solo paciente de forma independiente ese día. Decidió que, desde ese momento, se obligaría a conformarse con un diagnóstico antes de consultar la inteligencia artificial. “Fui a la Facultad de Medicina para convertirme en un verdadero médico de la capital”, me dijo. “Si todo lo que hace es conectar los síntomas a una IA, ¿sigue siendo un médico o es un poco mejor alentar la IA que sus pacientes?”
Unas semanas después de la demostración de Cabot, Manrai me dio acceso al modelo. Fue entrenado en el CPC de EL New England Journal of Medicine; Lo probé por primera vez en los casos de Jama Red, una familia de revistas médicas líderes. Hizo un diagnóstico preciso de pacientes con diversas afecciones, incluidos erupciones, bultos, crecimientos y pérdidas musculares, con un pequeño número de excepciones: ha confundido un tipo de tumor con otra y una úlcera de la boca viral como cáncer. (CHATGPT, en comparación, diagnosticó erróneamente aproximadamente la mitad de los casos que di, confundió el cáncer con una infección y una reacción alérgica para una condición autoinmune). Sin embargo, los pacientes reales no presentan estudios de casos cuidadosamente organizados, y quería ver cómo Cabot respondería a los tipos de situaciones que los médicos realmente abrumaron.
Le di a Cabot el amplio Stokes de lo que Matthew Williams había experimentado: andar en bicicleta, cena, dolor abdominal, vómitos, dos visitas al departamento de emergencias. No organicé información como un médico. Alarmante, cuando Cabot generó una de sus presentaciones netas, las diapositivas estaban llenas de valores de laboratorio, signos vitales y resultados del examen. “El abdomen se ve distendido en la cima”, dijo AI, erróneamente. “Cuando lo colocas suavemente, escuchas esta hinchazón clásica: Soulide para dormir en un recipiente cerrado”. Cabot incluso mencionó el informe de una tomografía computarizada que habría mostrado el estómago inflado de Williams. Llegó a un diagnóstico erróneo del volvulo gástrico: una torsión del estómago, no del intestino.
Traté de darle a Cabot un resumen oficial de la segunda visita de emergencia de Williams, según lo detallado por los médicos que lo vieron, y esto produjo un resultado muy diferente, porque tenían más datos, ordenados por la importancia. El nivel de hemoglobina del paciente había caído; Sus células blancas, o leucocitos, se habían multiplicado; Se duplicó de dolor. Esta vez, Cabot se aferró a los datos relevantes y pareció inventar cualquier cosa. “Los indicadores foracidos (leucocitosis, la caída en la hemoglobina) están parpadeando”, dijo. Cabot diagnosticó una obstrucción en el intestino delgado, tal vez debido al volvulus o una hernia. “Involucre la cirugía temprano”, dijo. Técnicamente, Cabot estaba ligeramente fuera de la marca: el problema de Williams apareció en el grande, no en el intestino delgado. Pero los siguientes pasos habrían sido prácticamente idénticos. Un cirujano habría encontrado el nudo intestinal.
Hablar en Cabot fue estimulante y molesto. Sentí que ahora podría recibir una segunda opinión, en cualquier especialidad, en cualquier momento. Pero solo con vigilancia y capacitación médica que podría disfrutar completamente de sus capacidades y detectar sus errores. Los modelos de IA pueden parecer un doctorado, incluso mientras cometen errores de la escuela primaria en el juicio. Los chatbots no pueden examinar a los pacientes y se sabe que luchan con solicitudes abiertas. Su producción mejora cuando destaca lo que es más importante, pero la mayoría de las personas no están capacitadas para ordenar los síntomas de esta manera. Una persona con dolor en el pecho puede sentirse ácido, inflamación o ataque cardíaco; Un médico preguntó si el dolor ocurre cuando come, cuando camina o cuando está acostado en la cama. Si la persona se inclina hacia adelante, ¿el dolor se agravó o disminuyó? A veces escuchamos oraciones que aumentan considerablemente las posibilidades de una condición particular. “El peor dolor de cabeza de mi vida” puede significar una hemorragia cerebral; “Cortina sobre mi ojo” sugiere un bloqueo con la arteria retiniana. La diferencia entre la IA y las tecnologías de diagnóstico anteriores es la diferencia entre una sierra poderosa y una sierra de metal. Pero un usuario que no presta atención podría cortar un dedo.
Ayude suficientes conferencias clinicopatológicas o vea suficientes episodios de “House”, y cada caso médico comienza a parecer un misterio para resolverse. Lisa Sanders, la doctora en el centro de Revista Times La serie y la serie de Netflix “diagnóstico” compararon su trabajo con el de Sherlock Holmes. Pero la práctica diaria de la medicina a menudo es mucho más rutinaria y repetitiva. Durante una rotación en un hospital va durante mi entrenamiento, por ejemplo, me sentí menos en Sherlock que como Sisyphus. Al parecer, casi todos los pacientes presentaron una combinación de enfisema, insuficiencia cardíaca, diabetes, enfermedad renal crónica y presión arterial alta. Me familiaricé con una nueva oración: “probable multifactorial”, lo que significaba que había varias explicaciones sobre lo que el paciente estaba pasando, y busqué formas de resolver una condición sin exacerbar a otra. (El vaciado del líquido para aliviar un corazón sobrecargado, por ejemplo, puede deshidratar fácilmente los riñones). A veces, un diagnóstico preciso estaba fuera de propósito; Un paciente podría venir con dificultad para respirar y bajos niveles de oxígeno y ser tratado por enfermedad pulmonar obstructiva crónica, insuficiencia cardíaca y neumonía. A veces nunca entendimos qué había causado un episodio determinado, pero podríamos ayudar al paciente a sentirse mejor y llevarlo a casa. Pedirle a una IA que diagnosticarlo no nos habría ofrecido mucha claridad; En la práctica, no había una solución cuidadosa y satisfactoria.
Probar una IA con la resolución de una aventura médica comete el error de “comenzar en el final”, según Gurpreet Dhaliwal, médico de la Universidad de California en San Francisco, que el Veces Una vez descrito como “uno de los diagnósticos clínicos más hábiles en la práctica”. En opinión de Dhaliwal, los médicos le pedirían mejor ayuda a la IA para “orientación”: en lugar de preguntar qué se ha perdido a un paciente, un médico podría pedirle a un modelo que identifique las tendencias en la trayectoria del paciente, así como detalles importantes que el médico podría haberse perdido. El modelo no daría las órdenes del médico para seguir; En cambio, podría alertarlo de un estudio reciente, ofrecer un análisis de sangre útil o encontrar un litro de laboratorio a un archivo médico durante varias décadas. La visión de Dhaliwal para la IA médica reconoce la diferencia entre diagnosticar a las personas y cuidarlas. “Solo porque tienes un diccionario japonés-inglés en tu oficina
Cabot sigue siendo experimental, pero otras herramientas de IA ya dan forma a la atención al paciente. ChatGPT está bloqueado en la red de mi hospital, pero yo y muchos de mis colegas usamos OpenEvidence. La plataforma tiene acuerdos de licencia con las mejores revistas médicas y dice que cumple con la ley sobre los pacientes-urrimiento HIPAA. Cada una de sus respuestas cita un conjunto de artículos evaluados por pares, incluida a veces una cifra exacta o una cita textual de un artículo relevante, para prevenir las alucinaciones. Cuando le di un caso reciente a OpenEvidence, no trató de inmediato de resolver el misterio, sino que me hizo una serie de preguntas aclaratorias.