Hoy vamos a dar los primeros pasos con Knime, un excelente software de analisis de Data Mining, Minería de datos en español o para la explotación de Big Data. Se trata de un software gratuito que puedes desde descargar aquí

Qué vamos a ver sobre Knime en este artículo

En este artículo aprenderemos a hacer las siguientes cosas con Knime:
  • Importar Datasets
  • Creación de Diccionarios
  • Ampliación de estadísticas
  • Conversiones de tipo

Nodos que vamos a usar

En este artículo usaremos los siguientes nodos de Knime
  • Nodos de entrada de datos
  • Boxplot
  • Statistics
  • Numeric to String

Datasets que usaremos

En este artículo vamos a usar un Dataset del Titanic y el de Iris

Dataset del Titanic

Importar Datasets en Knime

Importar Datasets en Knime es realmente sencillo. Dependiendo del tipo de archivo que sea (xls, csv...) usaremos uno de los nodos que Knime nos ofrece. En este caso vamos a Importar el dataset de Iris que es un archivo xls con el nodo "Excel Reader (XLS)".
  1. Buscamos el nodo en "Node Repository"
  2. Arrastramos el nodo a la pizarra para trabajar con el.

Importar Datasets en Knime

A continuación:
  1. Hacemos clic derecho > Configure para configurar el nodo (este proceso será igual para todos los nodos).
  2. Elegiremos la ruta de nuestro equipo donde esté el dataset.

Importar Datasets en Knime

Podemos marcar o no la casilla que os muestro a continuación, dependiendo del dataset.

Importar Datasets en Knime

Creación de Diccionarios en Knime

Crear un diccionario en Knime, nos ayudará a darle mejor visibilidad y legibilidad a nuestro dataset. Teniendo en cuenta que lo más probable es que sean datos que nos den, podremos modelar un archivo xls para darle nuevos nombres a las variables de nuestro dataset como vemos en la siguiente imagen. En este caso estamos haciendo uso del dataset de Titanic.



Ahora vamos a hacer uso del nodo "Insert Column Header" para añadir las columnas y del "Excel Reader (XLS)" para añadir nuestro diccionario. Hay que tener cuenta que en este caso el dataset está añadido desde el nodo "CSV Reader".



Como podemos ver, en la imagen de arriba, tendremos que seleccionar la ruta del diccionario.


Configuramos el nodo "Insert Column Header" y como podemos ver, los datos nos aparecerán con una nueva cabecera, justo la que hemos creado con el diccionario de datos.


Analizar distribuciones para variables específicas en Knime

A continuación, vamos a ver gracias al nodo "Conditional Box Plot" el boxplot o también llamado Caja de Bigotes para conocer entre otros datos de interés los quartiles de nuestros datos para variables específicas. En este caso para el dataset de Iris.



En este caso podemos ver claramente como la altura del sépalo varía mucho de un tipo de Iris a otra.


Ampliación de estadísticas en Knime

Un nodo muy interesante y con el cuál podremos conocer innumerables datos e incluso histogramas es "Statistics" que nos ofrece datos estadísticos sobre nuestros datos. Entre muchos otros el máximo, mínimo, media, varianza, kurtosis...

Estadísticas en Knime
Estadísticas en Knime

Conversiones de tipo en Knime

Cuando trabajamos con Knime, a veces, es necesario cambiar el tipo de dato, como por ejemplo, de String a Numérico o viceversa y para ello tendremos sendos nodos que nos ayudarán en las conversiones de tipo de forma muy sencilla.

Conversiones de Tipo en Knime
Conversiones de Tipo en Knime

Créditos

Agradecimientos por la ayuda a Juanma Ucero Calderón (Linkedin Aquí)