Cómo preparar los datos para el análisis predictivo

Cuando usted está aprendiendo un nuevo lenguaje de programación, es costumbre escribir el " hola mundo " programa. Para el aprendizaje automático y análisis predictivo, la creación de un modelo para clasificar el conjunto de datos Iris es su " hola mundo " programa equivalente. Este es un ejemplo bastante simple, pero es muy eficaz en la enseñanza de los conceptos básicos de aprendizaje automático y análisis predictivo.

Conteúdo

¿cómo obtener el conjunto de datos de muestra
Cómo etiquetar sus datos

¿Cómo obtener el conjunto de datos de muestra

Para crear nuestro modelo predictivo, tendrás que descargar la muestra Iris conjunto de datos. Este conjunto de datos está disponible gratuitamente de muchas fuentes, sobre todo en instituciones académicas que cuentan con departamentos de máquina-aprendizaje. Afortunadamente, la gente de eran lo suficientemente agradable para incluir algunos conjuntos de datos de muestra y las funciones de carga de datos, junto con su paquete. A los efectos de estos ejemplos, lo único que necesita para ejecutar un par de simples líneas de código para cargar los datos.

Cómo etiquetar sus datos

Aquí es uno de observación y sus características de cada clase del conjunto de datos Iris flor.

Sépalo Longitud	Sépalo Ancho	Pétalo Longitud	Pétalo Ancho	Clase Objetivo / Label
5.1	3.5	1.4	0.2	Setosa (0)
7.0	3.2	4.7	1.4	Versicolor (1)
6.3	3.3	6.0	2.5	Virginica (2)

El conjunto de datos Iris Flower es un verdadero conjunto de datos multivariante de tres clases de la flor del iris (Setosa del iris, iris virginica, y Iris versicolor) Introducido por Ronald Fisher en su artículo 1936, ". El uso de múltiples mediciones en taxonómica Problemas " Este conjunto de datos es mejor conocido por su amplio uso en el mundo académico para el aprendizaje automático y la estadística.

El conjunto de datos consta de 150 casos en total, con 50 casos de cada una de las 3 clases de la flor del diafragma. La muestra cuenta con 4 funciones (también llamados comúnmente atributos), Que son las medidas de longitud y anchura de los sépalos y pétalos.

La parte interesante de este conjunto de datos es que las tres clases son algo linealmente separables. los Setosa clase puede ser separada de las otras dos clases dibujando una línea recta en el gráfico entre ellas. los Virginica y Versicolor clases no pueden ser perfectamente separados utilizando una línea recta - a pesar de que está cerca. Esto hace que sea un conjunto de datos candidato perfecto para hacer análisis de clasificación, pero no tan bueno para la agrupación de análisis.

Los datos de la muestra ya fue etiquetado. La columna de la derecha (etiqueta) de arriba muestra los nombres de cada clase de la flor del iris. El nombre de la clase se llama etiqueta o una focalización por lo general está asignado a una variable llamada y. Es, básicamente, el resultado o el resultado de lo que se predijo.

En la estadística y la modelización, se refiere a menudo como la variable dependiente. Depende de las entradas que corresponden a SEPAL longitud y anchura y para pétalo longitud y anchura.

También es posible que desee saber lo que es diferente acerca de la scikit preprocesado Iris conjunto de datos, en comparación con el conjunto de datos original. Para averiguarlo, es necesario obtener el archivo de datos original. Usted puede hacer una búsqueda en Google de iris conjunto de datos y descargarlo o verlo desde una de las instituciones académicas.

El resultado que por lo general aparece primero es la Universidad de California Irvine de (UCI) del repositorio de datos de máquina-aprendizaje. El conjunto de datos del iris en su estado original desde el repositorio de aprendizaje de máquinas UCI se puede encontrar en el sitio web de la UCI.

Si descarga, usted debería ser capaz de ver con cualquier editor de texto. Al ver los datos en el archivo, te darás cuenta de que hay cinco columnas en cada fila. Las primeras cuatro columnas son las mediciones (que se refiere como el Características) Y la última columna es la etiqueta. La etiqueta se diferencia entre el original y scikit versiones del conjunto de datos del iris.

Otra diferencia es la primera fila del archivo de datos. Incluye una fila de encabezado utilizado por el scikit la función de carga de datos. No tiene ningún efecto sobre los propios algoritmos.

La normalización de las características de los números en lugar de mantenerlos en forma de texto hace que sea más fácil para los algoritmos de proceso - y es mucho más eficiente en la memoria. Esto es especialmente evidente si se ejecuta muy grandes conjuntos de datos con muchas características - que es a menudo el caso en escenarios reales.

Aquí hay datos de las muestras de ambos archivos. Todas las columnas de datos son los mismos a excepción de COL5. Tenga en cuenta que scikit tiene nombres de clase con labels- numérica el archivo original tiene etiquetas de texto.

Fuente	Col1	Col2	Col3	Col4	COL5
scikit	5.1	3.5	1.4	0.2	0
original	5.1	3.5	1.4	0.2	Iris-setosa
scikit	7.0	3.2	4.7	1.4	1
original	7.0	3.2	4.7	1.4	Iris-versicolor
scikit	6.3	3.3	6.0	2.5	2
original	6.3	3.3	6.0	2.5	Iris-virginica

Sobre el autor

Cómo cargar datos en un modelo de aprendizaje supervisado svm

Para el análisis predictivo, es necesario cargar los datos para sus algoritmos a utilizar. Cargando el conjunto de datos Iris en scikit es tan simple como la emisión de un par de líneas de código, porque scikit ya ha creado una función para…

Cómo cargar los datos en una clasificación r análisis predictivo modelo

El conjunto de datos se analizan para hacer una predicción sobre es el conjunto de datos Semillas, que se puede encontrar en la máquina de aprendizaje del repositorio UCI. Este conjunto de datos tiene 210 observaciones y 7 atributos, además de la…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo ejecutar los datos de prueba y evaluar un modelo de aprendizaje supervisado svm

Aprendizaje supervisado es una tarea de aprendizaje automático que aprende de los datos de análisis predictivo que ha sido etiquetados. Una manera de pensar sobre el aprendizaje supervisado es que el etiquetado de los datos se realiza bajo la…

Cómo ejecutar datos de entrenamiento en un modelo de aprendizaje supervisado svm

Antes de que pueda alimentar el clasificador Apoyo Vector Machine (SVM) con los datos que se cargan durante el análisis predictivo, debe dividir el conjunto de datos completo en un conjunto de entrenamiento y de prueba.Afortunadamente, scikit-learn…

Cómo visualizar el clasificador en un SVM aprendizaje supervisado modelo

El conjunto de datos del iris no es fácil representar gráficamente para el análisis predictivo en su forma original porque no se puede trazar las cuatro coordenadas (de las características) del conjunto de datos en una pantalla bidimensional.…

Cómo visualizar las agrupaciones en un k-significa modelo de aprendizaje no supervisado

El conjunto de datos del iris no es fácil representar gráficamente para el análisis predictivo en su forma original. Por lo tanto usted tiene que reducir el número de dimensiones mediante la aplicación de un algoritmo de reducción de…

Cómo agregar campos calculados a los datos en r

Después de crear el subconjunto apropiado de sus datos, el siguiente paso en el análisis es probable que sea para realizar algunos cálculos con R.Cómo hacer aritmética en columnas de una trama de datosR hace que sea muy fácil de realizar…

¿Cómo añadir filas y columnas totales en I

Una de las tareas que puede hacer con frecuencia en una hoja de cálculo que también se puede hacer en I es el cálculo de fila o columna de totales. La forma más sencilla de hacerlo es utilizar las funciones rowSums () y colSums ().Del mismo…

Cómo calcular las correlaciones de datos en r

La cantidad en la que dos variables de datos varían juntos puede ser descrita por el coeficiente de correlación. En R, se obtiene la correlación entre un conjunto de variables muy fácilmente mediante el uso de la cor () función. Sólo tiene que…

¿Cómo eliminar datos duplicados en r

Una aplicación muy útil de subconjuntos de datos es encontrar y eliminar valores duplicados. R tiene una función útil, duplicado (), que encuentra valores duplicados y devuelve un vector lógico que indica si el valor específico es un duplicado…

Cómo subconjunto tramas de datos en r

Ahora que ha revisado las reglas para la creación de subconjuntos, puede probar con algunas tramas de datos en R. Sólo tienes que recordar que una trama de datos es un objeto bidimensional y contiene filas, así como columnas. Esto significa que…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo preparar los datos para el análisis predictivo