Análisis de datos genéticos con Expander

En este artículo vamos a ver el uso de la herramienta Expander para analizar datos genéticos realizando diferentes experimentos, ejercicios y problemas para que puedas entenderla mejor

Nuestros objetivos con Expander

Instalar la herramienta de análisis de datos genéticos Expander.
Introducir al uso de la herramienta para el análisis de datos de expresión genética.
Conocer los formatos de entrada de la aplicación y visualización de los mismos.

Conceptos sobre Expander

EXPANDER (EXpression Analyzer and DisplayER) es una herramienta basada en JAVA para el análisis de datos de expresión genética. La herramienta Expander permite llevar a cabo: pre-procesamiento, visualización, agrupamiento (clustering, biclustering) y análisis de (bi-)clusters (como análisis de enriquecimiento). La herramienta contiene implementaciones de una serie de algoritmos estándares de análisis de expresión como por ejemplo K-means o CLICK que vamos a explicar a continuación.

Dónde descargar Expander

Puedes descargarla de forma libre en este enlace.

Formatos de datos de entrada en Expander

La herramienta EXPANDER es capaz de cargar un fichero con datos de expresión genética como, por ejemplo, un microarray, y trabajar con sus datos mediante los algoritmos que la propia herramienta incluye. Para ello, el archivo debe:

Estar delimitado por tabulaciones
La primera línea contendrá los campos correspondientes al Id del gen, su nombre (o símbolo) y las condiciones experimentales separados por tabulaciones
Las líneas siguientes contendrán la información referente a los datos detallados en la primera línea

Análisis de Componentes Principales (PCA)

Expander también viene con una herramienta implementada que es un algoritmo de Análisis de Componentes Principales (PCA). Este componente transforma los datos originales (N X M) en una representación gráfica de 2 dimensiones. Los puntos del gráfico representan cada uno de sus genes y su situación depende del nivel de expresión de los mismos, es decir, los genes que tienen similitud en su expresión, aparecerán juntos en el gráfico.

Bibliografía básica sobre Expander

https://www.ncbi.nlm.nih.gov/sites/GDSbrowser
http://acgt.cs.tau.ac.il/expander/
http://acgt.cs.tau.ac.il/expander/help/ver6.06help_pdf/ver6Help.pdf

Experimentos con Expander

Experimento 1

En el presente experimento vamos a realizar los primeros pasos con EXPANDER. Para ello realice las siguientesacciones:

Descargue el archivo Expander6Win.zip adjunto a esta práctica y descomprima el contenido en una carpeta del disco duro.
Descargue el archivo Expander6Win.zip adjunto a esta práctica y descomprima el contenido en una carpeta del disco duro.
Ejecute el programa lanzando para ello el archivo Expander.bat. (también existe Expander_2GB.bat y Expander_4GB.bat, los cuáles requeriran mayor uso de la RAM)
Una vez se ha accedido al programa vamos a cargar algunos datos de muestra para trabajar con ellos. Para ello ejecutamos el menú File > Load Data > Expression Data > Tabular Data File… Debe aparecer un cuadro de dialogo como el siguiente:

Seleccionamos el fichero situado en ../simple_input_files/expressionData2.txt y pulsamos OK.

Observar los datos cargados. ¿En qué rango de valores se mueven?

Como podemos observar los valores están entre 5 y 14.

Una vez cargados los datos, observar en el panel de la derecha las diferentes opciones de visualización de los mismos. (Box Plots, Raw Expression Matrix y Preprocessed Expression Matrix). ¿Qué gráfico nos muestra la última opción?¿Por qué?

La última opción no nos muestra nada puesto que aún no hemos realizado ningún preproceso

Lleve a cabo una estandarización de los datos. Para ello ejecute la opción Preprocessing > Standardization > Mean 0 and Variance 1 (Distribución Normal Estándar que tiene una media de '0' y una desviación estándar de '1'). ¿Qué cambios puede observar?

Experimento 2

Lleve a cabo un PCA de los datos previamente cargados, para ello seleccione Visualizations > PCA.

¿Qué resultado se obtiene?¿Que forma tiene el gráfico?

El gráfico tiene una forma ovalada

Hay zonas donde existe una mayor concentración de puntos ¿A qué se debe esto?

Como vemos tras la estandarización, podemos ver una concentración de puntos destacable en los bordes y cerca del 0 del eje Y.

Cree una nueva sesión y lance un PCA sin realizar ninguna estandarización previa. Compare los resultados. ¿Por qué existe esta diferencia?

Porque ahora los datos no están estandarizados ni normalizados y están lejos del 0.

Ejercicios con Expander

Ejercicio 1

Repita los experimentos anteriores utilizando para ello el fichero de datos ../simple_input_files/expressionData1.txt. Este fichero es un fragmento de un microarray que contiene datos de expresión genética referente a la levadura, concretamente al ciclo celular.

Cargamos los datos

Vemos la Matriz de expresión

Vemos la Matriz de expresión preprocesada

Estudio PCA

Ejercicio 2

Cargue ahora los datos del fichero ../simple_input_files/expressionData3.txt. Este fichero contiene la información de 3893 genes bajo 174 condiciones experimentales. Realice un análisis de expresión utilizando para ello el wizard de EXPANDER. Estandarice y normalice los datos. Compruebe las características de la matriz de expresión y detalle las conclusiones que se pueden obtener. Realice un análisis PCA y compruebe los resultados.

Matriz de Expresión sin preprocesar

Vemos el estudio PCA sin Preprocesado

Ahora vemos el estudio PCA Preprocesado

A continuación también os muestro la matriz de expresión preprocesada para este dataset.

Problemas con Expander

Problema 1

Seleccione un microarray del NCBI y transfórmelo a formato de entrada de EXPANDER. Una vez hecho esto, analícelo utilizando las herramientas vistas en clase.

Nos vamos a descargar el dataset que queramos en la web de NCBI del cuál tenéis el enlace en el apartado de Bibliografía.

Ojo! para transformar un archivo de NCBI el cuál viene en formato soft y debemos pasar a .txt debemos tener en cuenta varias cosas:

Borrar comentarios superiores

Borrar comentarios inferiores

Debemos quitar las filas con missings, es decir con valores nulos (null), así como los tabulados o saltos de línea en la última fila.

Podemos ver las diferentes opciones que hemos visto en apartados anteriores

En este caso hemos lanzado el Wizard para ver los datos de PCA según los clusters, viendo por colores cada uno de ellos.

Menú

{{posts[0].title}}

{{posts[1].title}}

{{posts[2].title}}

{{posts[3].title}}

Publicidad