Objetivos con Expander

  • Uso de los algoritmos de análisis de datos genéticos incorporados en EXPANDER.
  • Comprobar y analizar los diferentes resultados que nos muestra la herramienta.

Conceptos de Algoritmos en Expander

La herramienta EXPANDER nos ofrece implementaciones de una serie de algoritmos estándares de análisis de expresión como por ejemplo K-means, CLICK o SOM. En esta práctica se aplicarán algunos de estos algoritmos e interpretan sus resultados. A continuación detallamos alguna ifonrmación sobre estos algoritmos.

K-means

El algoritmo K-means método de Clustering basado en división. Dado un determinado valor K, el algoritmo divide los datos en K grupos disjuntos optimizandola siguiente función:

donde O es un objeto en el cluster Ci y ¹i es el centroide del cluster Ci, es decir, la media de todos sus objetos. Por lo tanto, la función E intenta minimizar la suma del cuadrado de la distancia de los objetos al centro de sus clusters.

Algoritmo CLICK

El algoritmo CLICK (CLuster Identification via Connectivity Kernels) identifica aquellos componentes altamente relacionados en grafos de proximidad como clusters. CLICK juega con el supuesto probabilístico de que, tras la normalización de los datos, los valores de similitud entre ellos siguen una distribución normal. Siguiendo este supuesto, el peso wij de una arista se define como la probabilidad de que los vértices i y j estén en el mismo cluster

Bibliografía

  • http://acgt.cs.tau.ac.il/expander/
  • http://acgt.cs.tau.ac.il/expander/help/ver6.06help_pdf/ver6Help.pdf
  • http://www.ncbi.nlm.nih.gov/sites/GDSbrowser
  • http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html

Experimentos con Expander

Experimento 1

  1. Abrimos EXPANDER con un mínimo de 2GB en la memoria de JVM.
  2. Cargamos en la aplicación los datos de expresión ../simple_input_files/expressionData2.txt.
  3. Llevamos a cabo una estandarización de los datos. Para ello ejecute la opción Preprocessing > Standardization > Mean 0
  4. Una vez realizado el preprocesado, seleccionamos los algoritmos de agrupamiento no supervisado y seleccionar Kmeans para la generación de 5 grupos. ¿Cuántos genes contiene el grupo mayor?¿Qué grupo tiene la mayor homogeneidad?

Como podemos observar el Cluster_1 es el de mayor tamaño y el que mayor homogeneidad tiene es el Cluster_3.

  1. Observamos los patrones de expresión que ha generado la aplicación. ¿Qué sucederá si se vuelve a ejecutar el algoritmo para 4 grupos?

Que los grupos aumentan su tamaño debido a que se redistribuyen

  1. Visualice ahora los valores de la matriz de expresión con los diferentes resultados obtenidos. Para ello seleccione la opción Clustered Expression Matrix del menú Visualizations. ¿Se aprecian cambios entre las diferentes resultados?¿Cuales?

Que para los Clusters con el mismo nombre tenemos diferentes colores puesto que hay datos diferentes

  1. Por último vamos a realizar un PCA a los resultados obtenidos. ¿Qué diferencias se pueden apreciar entre ambos resultados?¿A qué se debe esto?

Como podemos observar en el primer estudio PCA tenemos 5 Clustes y en el segundo tenemos 4 Clusters

Ejercicios con Expander

Ejercicio 1

Vamos a seleccionar un microarray del NCBI y lo vamos a transformar a formato de entrada de EXPANDER. Vamos a analizar el microarray utilizando para ello algunos de los algoritmos de agrupamiento explicados. Anote los resultados más relevantes y redacte unas conclusiones sobre el grupo generado con mayor homogeneidad.


Hay que tener el cuenta lo que vimos en la primera práctica sobre Expander a la hora de modificar el texto borrando los comentarios y las filas con null.


Con el Algoritmo CLICK podemos comprobar que el cluster más homogéneo es el Cluster_2


En el Algoritmo K-Means con 10 clusters observamos que el primero y el segundo son los más homogéneos (tener en cuenta que el tamaño del primero es muy superior al segundo)



En el Algoritmo SOM con 24 clusters podemos ver que el más homogéneo es el cluster_5.



Con la información que nos ha mostrado cada algoritmo, la cuál es muy similar, podríamos decir que tenemos localizada la mayor homogeneidad de los datos.