Aplicación de algoritmos bioinspirados para el análisis diferencial de datos transcriptómicos



Aplicación de algoritmos bioinspirados para el análisis diferencial de datos transcriptómicos

Angélica Alejandra Serrano Rubio
 

Texto completo de la Tesis           Video del evento          


Resumen

 

En el área de la Bioinformática, el análisis de datos de expresión génica diferencial se caracteriza por ser el método más utilizado para tratar de entender la relación que existe entre la función de los genes y los procesos biológicos y de regulación que se llevan a cabo dentro de un organismo vivo, así como los mecanismos de respuesta de este ante diversas condiciones de estrés o enfermedad. Actualmente es posible estudiar el comportamiento de miles de genes ante múltiples condiciones perturbativas de forma simultánea, gracias a las nuevas tecnologías de secuenciación. Estos experimentos generan un gran volumen de datos en muy poco tiempo. El problema de cómo analizar esta inmensa cantidad de información ha atraído la atención de muchos investigadores en el ámbito computacional e informático debido a que la extracción de conocimiento representa un gran reto. Los métodos tradicionales de clustering resultan ser la opción más popular, pues permiten agrupar genes de acuerdo a sus niveles de expresión en una cierta condición experimental. Sin embargo, un grupo de genes puede mostrar co-expresión bajo un cierto grupo de condiciones, por lo que se han desarrollado diversas técnicas de biclustering cuyo propósito es encontrar subconjuntos de genes que muestren patrones de comportamiento co-relacionado en más de una condición experimental. Los algoritmos disponibles actualmente que permiten hacer análisis de biclustering no son lo suficientemente robustos, no producen resultados confiables o de relevancia ni congruencia biológica, y no tienen poder predictivo. En la presente tesis se propuso una implementación novedosa para el desarrollo de una herramienta bioinformática (HTMgene) basada en la teoría bioinspirada Hierarchical Temporal Memory (HTM por sus siglas en inglés). El principal objetivo de la herramienta es identificar aquellos genes que muestren un perfil de expresión correlacionado en un subconjunto de condiciones distintas, a través del análisis de datos genómicos o transcriptómicos. HTMgene es el primer acercamiento de dos áreas totalmente diferentes y por consiguiente se puede considerar un gran aporte al estado del arte actual. Con la finalidad de comparar el rendimiento de HTMgene respecto a otros algoritmos propuestos en la literatura, se utilizaron cuatro conjuntos de datos de diversa complejidad y relevancia biológica: i) datos in silico construidos artificialmente, ii) datos genómicos del organismo modelo Saccharomyces cerevisiae (una levadura), iii) datos genómicos del organismo modelo Arabidopsis thaliana (una planta)), y iv) datos transcriptómicos del organismo Carica papaya. En el último caso, HTMgene se utilizó para realizar un análisis bioinformático relacionado a la respuesta inmune de la planta ante una doble infección viral. Los resultados obtenidos muestran que HTMgene es notoriamente superior a todos los algoritmos contra los que se comparó, ya que es flexible y robusto al considerar posibles facetas del problema de biclustering (distintos conjuntos de datos), además de cumplir con todos los requerimientos y recursos específicos para poder llegar a una solución correcta de manera eficaz y eficiente. Finalmente, HTMgene muestra un gran potencial para ser aplicado a otras áreas tanto dentro de la Biología (estudio de redes génicas o la predicción de factores de transcripción), como otras áreas del conocimiento.

 

Abstract

In the area of Bioinformatics, the analysis of differential gene expression is characterized as the most popular method for studying the relationship between genes and biological processes. Today, we can analyze the behavior of thousands of genes in multiple conditions simultaneously. This generates a large volume of data in a short period of time, thanks to new sequencing technologies. How to analyze this amount of information has attracted the attention of many researchers in the areas of computer science and informatics because the extraction of new knowledge represents a great challenge. Clustering turns out to be the most popular technique for grouping genes according to their levels of expression in an experimental condition. However, a group of genes may show co-expression under a certain set of conditions, so various techniques of biclustering have been proposed whose purpose is to find subsets of genes showing patterns of co-related behavior in a subset of experimental conditions. Currently available biclustering tools are not reliable, do not produce results consistent with biological knowledge, and have no predictive power. In this thesis, we propose and implement a new bioinformatic tool (HTMgene) based on the Hierarchical Temporal Memory theory (HTM) which aims to identify those genes that have a co-related expression pro le in a subset of conditions. To the best of our knowledge, HTMgene is the first approach of two completely different areas to improve on the solution of this problem, therefore it can be considered a great contribution to the state of art. In order to test the power and performance of HTMgene with respect to other algorithms previously reported, we used three datasets with varying levels of complexity and biological relevance: i) artificially built in silico data, ii) genomic data from Saccharomyces cerevisiae (a yeast), iii) genomic data from Arabidopsis thaliana (a plant), and iv) transcriptomic data from Carica papaya (a plant). In the fourth case, HTMgene was used to do a bioinformatic analysis of data related to the immune response mechanism of the plant on a double viral infection. The results show that HTMgene proved to be superior to all the algorithms with which it was compared, due to it is flexibility and robustness to cover all possible aspects (individual data sets) of the problem of biclustering, in addition to meeting all requirements and specific resources to reach a correct solution effectively and efficiently. Finally, HTMgene shows great potential to be applied in other areas within biology such as the study of gene networks or prediction of transcription factors, as well as other fields of science and technology.