Machine Learning en Laboratorio de Análisis Clínicos
A medida que la demanda de atención médica de calidad continúa aumentando exponencialmente, también lo hace el volumen de pruebas de laboratorio. Al igual que otros sectores, la investigación en el campo de la medicina de laboratorio ha comenzado a investigar el uso de Machine Learning (ML) para gestionar con éxito la creciente demanda de servicios y mejorar la calidad y la seguridad. En la última década, el rendimiento de ML en tareas estadísticas de benchmark ha mejorado significativamente debido a la mayor disponibilidad de computación de alta velocidad en unidades de procesamiento de gráficos, integración de redes neuronales convolucionales, optimización de Deep Learning y conjuntos de datos cada vez más grandes. El consenso actual es que el rendimiento general de ML supervisado, es decir, algoritmos que dependen de conjuntos de datos etiquetados, ha alcanzado un punto de inflexión donde los laboratorios clínicos deben buscar aplicaciones de misión crítica.
En los últimos años, las publicaciones de investigación relacionadas con ML han aumentado significativamente en patología y medicina de laboratorio. Sin embargo, a pesar de los recientes avances tecnológicos y el creciente cuerpo de literatura, existen pocos ejemplos de ML implementados en la práctica clínica habitual. De hecho, algunos de los ejemplos más destacados de ML en la práctica actual se desarrollaron antes de la reciente inflexión en publicaciones relacionadas con ML. A medida que la medicina de laboratorio continúa pasando por la digitalización y la automatización, es probable que los laboratorios clínicos se enfrenten a los desafíos asociados con la evaluación, implementación y validación de algoritmos de ML, tanto dentro como fuera de sus laboratorios. Entender para qué sirve el ML, dónde se puede aplicar y el estado del arte y las limitaciones del campo de ML será útil para la práctica de los profesionales de laboratorio.
La forma en que ML continúa siendo adoptado e integrado en la compleja infraestructura de la Tecnología de la Información de Salud (TIS) y puede influir en la práctica de la medicina de laboratorio sigue siendo una cuestión abierta. En particular, es importante considerar las barreras para la implementación e identificar a las partes interesadas para la gobernanza, el desarrollo, la validación y el mantenimiento. Sin embargo, los laboratorios clínicos primero deben considerar el contexto: ¿la aplicación de ML está dentro o fuera de un laboratorio?
Los métodos robustos de ML como la convolución de imágenes, las redes neuronales y Deep Learning han acelerado el rendimiento de ML basado en imágenes en los últimos años. Sin embargo, las imágenes digitales no son tan abundantes en los laboratorios clínicos como en otras especialidades de diagnóstico, como la radiología o la patología anatómica, lo que posiblemente limita las futuras aplicaciones futuras de ML basadas en imágenes en la medicina de laboratorio.
Algunos de estos autores que han realizado trabajos en este campo, desarrollan sesgos de investigación, algunos consideran que la prueba en sí misma es imperfecta y señalan que el contexto clínico debe ser considerado al tomar decisiones sobre su uso e interpretación. Este es el caso de Waljee, en 2019, con una muestra 401, cuyo objetivo era identificar las características de los pacientes con enfermedad de Crohn y la terapia con ustekinumabe, usando la proteína C reactiva (PCR) como un biomarcador de la actividad de la enfermedad y evaluando la ventaja incremental de usar estos predictores en comparación con el nivel solo del fármaco. Se utilizó Random Forest, método de predicciones de ML que utiliza un conjunto de árboles de decisión para clasificar las observaciones. Los predictores más importantes fueron la PCR, la albúmina y la proporción sérica de ustekinumabe/PCR.
Además del número limitado de aplicaciones comerciales, la investigación de ML en medicina de laboratorio también ha aumentado, aunque el número total de publicaciones sigue siendo relativamente bajo. En los últimos años, los investigadores han investigado la utilidad de ML para una amplia gama de conjuntos de datos, como el análisis de la morfología de los eritrocitos, la morfología de las colonias bacterianas, los paneles tiroideos, los perfiles de esteroides en orina, la citometría de flujo y la revisión de informes de resultados de la prueba para garantizar la calidad.
Un estudio de Bhosale en 2018, con 43 muestras para cada grupo, se encontró un fenotipo para marcar el grupo de riesgo, utilizando el análisis de ML, se identificó un panel de biomarcadores. Se evaluó la presencia de biomarcadores de proteínas séricas asociadas con las primeras etapas de la formación de placas ateroscleróticas carotídeas, bajo análisis proteómicos cuantitativos sin etiqueta para muestras de suero recolectadas como parte del Estudio de riesgo cardiovascular en jóvenes finlandeses. Basado en ML y el paquete R glmnet, en un panel de tres proteínas (FBLN1C, APOE y CDH13) se observó que puede proporcionar una mejor discriminación entre casos y controles, particularmente con la inclusión de APOE y CDH13.
El estudio de Ko, aún en noviembre de 2018, con 1742 muestras, obtuvo una visión más positiva. Se aplicó un algoritmo de ML clínicamente validado para detectar enfermedades residuales con análisis de citometría de flujo multicolor (CFM) en leucemia mieloide aguda (LMA) y síndrome mielodisplásico (SMD). Utilizaron dos técnicas de inteligencia artificial (IA) para desarrollar un algoritmo de interpretación de CFM para detectar una enfermedad residual mínima utilizando una cohorte del mundo real de más de 1000 pacientes con LMA y SMD con más de 5000 datos de CFM en muestras de médula ósea. Se demostró que los algoritmos desarrollados a través de la IA podían realizar la tarea de clasificación en muy poco tiempo (solo 7 segundos), con aproximadamente 90% de precisión en la detección de enfermedades residuales en LMA y SMD.
A medida que los registros electrónicos de pacientes (REPs) continúan evolucionando y acumulando más datos, los proveedores comerciales de REPs buscan expandir sus capacidades analíticas y de acceso a datos. Comienzan a ofrecer modelos ML diseñados para su uso en sus sistemas y, en algunos casos, permiten el acceso a modelos de terceros. Los proveedores a menudo empaquetan software de ML en apoyo del soporte de decisiones clínicas (SDC), un lugar cada vez más popular para mezclar ML y medicina clínica, como en el caso del trabajo de Dobaños en 2019, con una muestra de 195, que buscaron ayuda en ML para medir los niveles de anticuerpos mediante tecnología de conjuntos de suspensión cuantitativa y modelos de regresión aplicados, para analizar los factores que afectan sus niveles y correlatos de protección. Los análisis multimarca se realizaron mediante análisis de componentes principales, matrices de correlación y análisis discriminante de mínimos cuadrados parciales de ML utilizando los paquetes R FactoMineR, Corrplot y DiscriMiner, respectivamente. Por lo tanto, proporcionó evidencia de un efecto positivo de la inmunización con RTS,S en las respuestas de anticuerpos a ciertos antígenos que están asociados con la protección.
Aunque algunas instituciones han integrado con éxito los sistemas locales de ML en sus flujos de trabajo, pocas han hecho la transición a la práctica clínica. A pesar del desarrollo de modelos de mejor rendimiento, los investigadores, por diversas razones, a menudo encuentran dificultades con la proverbial última milla de integración clínica. En particular, la literatura ofrece poca o ninguna orientación sobre las métricas de rendimiento estadístico para evaluar los modelos de ML, el diseño de experimentos de validación clínica o cómo crear modelos de ML más modulares que se integren con las infraestructuras actuales de tecnología de la información en medicina de laboratorio (TI) y flujos de trabajo.
Con toda probabilidad, la razón de la lenta adopción de ML por parte de los laboratorios clínicos, tanto de fuentes comerciales como de investigación, es multifactorial e indudablemente emana de algo más que las limitaciones intrínsecas de la tecnología principal en sí. Al igual que otras tecnologías que reciben mucha atención, como Big Data o blockchain, ML sigue siendo una herramienta que requiere una arquitectura de sistema de soporte. Si bien la tecnología central muestra resultados prometedores, es probable que su prevalencia en la práctica diaria siga siendo limitada hasta que los desarrolladores e ingenieros de software ofrezcan sistemas de TI clínicos que permitan una fácil integración con los flujos de trabajo existentes.
En su estado actual, los algoritmos de ML a menudo se basan en datos estructurados para el entrenamiento y la posterior generación de predicciones. Si bien una parte importante de las REPs contienen datos no estructurados y semiestructurados, la información de laboratorio sigue siendo una de las mayores fuentes de datos estructurados, y no es raro que las herramientas basadas en ML confíen en gran medida en los datos de laboratorio como entrada. A medida que proliferan las herramientas, el papel de la medicina de laboratorio en el desarrollo, validación y mantenimiento de estos modelos sigue siendo importante, pero poco definido.
Lectura de referencias:
- Bhosale, Santosh D. et al. Serum proteomic profiling to identify biomarkers of premature carotid atherosclerosis. Scientific reports, v. 8, n. 1, p. 1–9, 2018.
- Dobaño, Carlota et al. RTS, S/AS01E immunization increases antibody responses to vaccine-unrelated Plasmodium falciparum antigens associated with protection against clinical malaria in African children: a case-control study. BMC medicine, v. 17, n. 1, p. 157, 2019.
- Ko, Bor-Sheng et al. Clinically validated machine learning algorithm for detecting residual diseases with multicolor flow cytometry analysis in acute myeloid leukemia and myelodysplastic syndrome. EBioMedicine, v. 37, p. 91–100, 2018.
- Waljee, Akbar K. et al. Development and Validation of Machine Learning Models in Prediction of Remission in Patients With Moderate to Severe Crohn Disease. JAMA network open, v. 2, n. 5, p. e193721-e193721, 2019.