
Un estudio internacional liderado por el investigador Pedro Martínez, del Centro Andaluz de Biología del Desarrollo (CABD) —centro mixto de la Universidad Pablo de Olavide (UPO), el Consejo Superior de Investigaciones Científicas (CSIC) y la Junta de Andalucía—, ha empleado un enfoque de aprendizaje automático en el estudio del genoma, centrado en los lugares donde se generan estructuras híbridas de ARN y ADN, asociadas a la inestabilidad genómica y al origen del cáncer. Los resultados del estudio, publicados recientemente en la revista NAR Genomics and Bioinformatics, han permitido realizar predicciones específicas en genomas de mamíferos a través de información de secuencia y señales de secuenciación, contribuyendo en el avance de la comprensión biológica del genoma.

El equipo de científicos, compuesto por Thomas Vanhaeren y Federico Divina de la Universidad Pablo de Olavide de Sevilla, Ludovica Cataneo de la Universidad de Bologna y Pedro Martínez del Centro Andaluz de Biología del Desarrollo (CABD), ha realizado un enfoque bioinformático para estudiar la dinámica de los sitios en el genoma donde se originan los híbridos ARN-ADN, considerando las diferencias entre tipos celulares.
Dentro de las células, la información genética se encuentra en diversas formas como el ADN, el cual es capaz de copiarse en forma de ARN en un proceso que se conoce como transcripción. Si durante el proceso de transcripción se acumulan híbridos de ADN y ARN, se genera una fuente significativa de inestabilidad genómica asociada al origen del cáncer. Estos investigadores han desarrollado una herramienta de aprendizaje automático con un predictor de alta precisión, capaz de identificar áreas del genoma que presentan estas fuentes de inestabilidad. “Hasta ahora, las herramientas para predecir estos sitios se basaban únicamente en la secuencia de ADN, que es esencialmente la misma en todo el organismo, por lo que no era posible predecir la formación de híbridos en tipos celulares específicos. Nuestra herramienta hace uso de datos de secuenciación masiva para generar mapas virtuales específicos de tipos celulares y tejidos”, indica Pedro Martínez, investigador del CABD y uno de los autores del estudio.
El estudio reveló una alta precisión de esta herramienta en las predicciones. En base a ello, se generaron mapas virtuales en 51 sistemas de mamíferos a partir de ENCODE, a los que la comunidad científica puede acceder fácilmente ayudando al resto de investigación a avanzar en su comprensión de la biología de estas estructuras asociadas al origen del cáncer. “La alta precisión de nuestro predictor hace posible anticipar los sitios de formación de híbridos de ADN y ARN sin necesidad de llevar a cabo los correspondientes experimentos de localización genómica, lo que puede facilitar el estudio de las bases moleculares de estas estructuras”, culmina Pedro Martínez.
Referencia:
Thomas Vanhaeren, Ludovica Cataneo, Federico Divina, Pedro Manuel Martínez-García, Enhancing R-loop prediction with high-throughput sequencing data, NAR Genomics and Bioinformatics, Volume 7, Issue 2, June 2025, lqaf077, https://doi.org/10.1093/nargab/lqaf077
Fuente: CSIC Andalucía

