Munjal Shah imagina un futuro en el que todo el mundo tenga acceso a un nutricionista, un asesor genético y un especialista en facturación de seguros médicos con sólo pulsar un botón. Ninguno de ellos, sin embargo, será humano: todos serán chatbots de voz o de texto. Estos bots, dice, responderán a las preguntas de los pacientes y les ofrecerán orientación con una advertencia importante: no diagnosticarán afecciones médicas (al menos no todavía).
"Se prevé que en los próximos años tengamos un déficit de 3 millones de trabajadores sanitarios en total", dice Shah. "Creemos que uno de los mayores riesgos para la calidad de la atención sanitaria en Estados Unidos es la falta de personal y de personal suficiente. Tenemos que cubrir esa carencia y utilizar la tecnología para ayudarnos".
Shah y siete cofundadores han recaudado una ronda semilla de 50 millones de dólares de General Catalyst y Andreessen Horowitz para desarrollar el gran modelo lingüístico que impulsará todos estos diferentes robots sanitarios. Están llamando a la startup, con sede en Palo Alto, Hippocratic AI, en un guiño al código ético que adoptan los médicos. Ese código, basado en escritos atribuidos al antiguo médico griego Hipócrates, se resume a menudo en "no hacer daño".
Cómo innovan Amazon y Meta, según Naranja X
Pero los modelos generativos de IA no pueden jurar cumplir los códigos éticos y, como ha demostrado el chatbot viral ChatGPT, también pueden producir información falsa en respuesta a las preguntas. Los reguladores se han comprometido a examinar más de cerca su uso en la atención sanitaria, y el comisario de la FDA, Robert Califf, afirmó en una conferencia a principios de este mes que considera "la regulación de los grandes modelos lingüísticos como algo crítico para nuestro futuro".
Aunque el futuro panorama normativo no está claro, Shah afirma que Hippocratic AI está adoptando un enfoque triple para probar su modelo de lenguaje de gran tamaño en entornos sanitarios, lo que implica pasar certificaciones, entrenar con comentarios humanos y probar lo que la empresa denomina "modales de cabecera". En lugar de dar a los clientes de los sistemas sanitarios acceso a todo el modelo, Shah afirma que Hippocratic AI está planeando proporcionar acceso a diferentes "roles" sanitarios, que se liberarán cuando un rol determinado haya alcanzado un cierto nivel de "rendimiento y seguridad".
Una vara de medir clave serán los exámenes de licencia y las certificaciones que un humano tendría que aprobar para poder operar en ese rol.
Ese enfoque es una de las razones por las que Julie Yoo, socia general de Andreessen Horowitz, decidió invertir. "Hace falta mucho más rigor inicial y peso en la parte de construcción para hacerlo bien, en lugar de limitarse a construir un prototipo y lanzarlo por encima de la valla como se haría con una típica empresa de software empresarial", dice Yoo, cuya firma invirtió en la anterior empresa de Shah, Health IQ. Esa empresa utilizaba la IA para emparejar a las personas mayores con los planes de Medicare basándose en sus historiales médicos.
Los futuros médicos pasan años preparándose concienzudamente para una serie de exámenes nacionales de licencia médica que ponen a prueba sus conocimientos adquiridos en libros, conferencias y experiencia práctica. En abril, Google afirmó que su modelo de gran lenguaje médico Med-PaLM 2 alcanzó una precisión del 85,4% en el examen de licencias médicas de EE.UU., mientras que Microsoft y OpenAI afirmaron que GPT-4, que se entrena con datos públicos de Internet, logró un 86,65%.
Shah describe que cada empresa está ejecutando un subconjunto del examen (y puede que los modelos no estén respondiendo a las mismas preguntas), por lo que es difícil comparar, pero el modelo de Hippocratic AI venció a GPT-4 por un 0,43% en las preguntas basadas en texto cuando intentaron aproximarse al mismo subconjunto.
En esa misma línea, afirma que Hippocratic AI probó su modelo contra GPT-4 en 114 puntos de referencia diferentes, incluidos exámenes y certificaciones utilizados para médicos, enfermeras, dentistas, farmacéuticos, audiólogos y codificadores médicos, entre otros. Hippocratic venció a GPT-4 en 105, empató en seis y perdió en tres.
Pero esto nos lleva a la cuestión más importante de qué se capta exactamente cuando una máquina realiza un examen y qué sugiere la realización de pruebas sobre la equivalencia humana. Shah reconoció que la realización de pruebas era "necesaria pero no suficiente" a la hora de implantar estos modelos en el mundo real. Se negó a nombrar ninguno de los conjuntos de datos sanitarios específicos con los que se entrena a Hippocratic.
"Cuando los humanos realizan este tipo de exámenes, estamos lanzando todo tipo de suposiciones", afirma Curt Langlotz, profesor de radiología e informática médica y director del Centro de Inteligencia Artificial en Medicina e Imagen de Stanford, que no está afiliado a Hippocratic AI. Los supuestos son que el humano ha ido a la universidad y a la facultad de medicina y tiene formación y experiencia clínica. "Estos modelos lingüísticos son un tipo de inteligencia diferente. Son a la vez mucho más inteligentes que nosotros y mucho más tontos que nosotros", afirma. Se entrenan con enormes cantidades de datos, pero también tienen el potencial de "alucinar", generando respuestas falsas y lanzando simples errores matemáticos.
Otro de los guardarraíles que la IA hipocrática planea aplicar es el uso de humanos reales para refinar las respuestas del modelo, lo que se conoce como aprendizaje por refuerzo con retroalimentación humana. Esto significa que para una función determinada, digamos dietista, Hippocratic AI hará que dietistas humanos clasifiquen sus respuestas y las ajusten en consecuencia. La empresa también seguirá desarrollando un conjunto de puntos de referencia que denomina "trato con el paciente", que consiste en puntuar el modelo de IA en función de métricas de rendimiento como la empatía y la compasión.
"Las mismas técnicas que son útiles para mejorar la comunicación de la información... son útiles para reconocer cuándo un modelo no sabe o cuándo un modelo no debería responder", dice David Sontag, profesor de ingeniería eléctrica e informática en el MIT, que no está afiliado a Hippocratic AI y está trabajando en su propia startup sigilosa. Pone el ejemplo de un escenario en el que la respuesta correcta debería ser decirle al paciente que llame al 911. Entrenar al modelo para que no responda es una parte importante del proceso de aprendizaje por refuerzo, afirma.
Hippocratic AI utilizará personal sanitario para entrenar sus modelos, y el plan es trabajar en estrecha colaboración con los clientes de los sistemas sanitarios durante la fase de desarrollo, ya que sus pacientes serán los usuarios finales. Aunque la empresa aún no ha anunciado ningún cliente, Hemant Taneja, consejero delegado y director gerente de General Catalyst, afirmó que existe un "gran interés" entre los distintos sistemas sanitarios con los que trabaja su empresa. "Para resolver el problema de la escasez de mano de obra, y liberando ese potencial humano a mayor escala, se puede lanzar a un precio más asequible para cada vez más personas", afirma. "Creo que es una enorme jugada de equidad sanitaria".