La minería de datos para los datos de gran

La minería de datos consiste en explorar y analizar grandes cantidades de datos para encontrar las pautas de los grandes datos. Las técnicas salieron de los campos de la estadística y la inteligencia artificial (IA), con un poco de gestión de base de datos arrojados a la mezcla.

En general, el objetivo de la minería de datos es o clasificación o predicción. En la clasificación, la idea es ordenar los datos en grupos. Por ejemplo, un vendedor podría estar interesado en las características de los que respondieron frente a quien no respondió a una promoción.

Estos son dos clases. En la predicción, la idea es predecir el valor de una variable continua. Por ejemplo, un vendedor podría estar interesado en la predicción de los que será responder a una promoción.

Algoritmos típicos utilizados en la minería de datos son los siguientes:

Árboles de clasificación: Una técnica de minería de datos popular que se utiliza para clasificar una variable dependiente categórica basada en mediciones de una o más variables predictoras. El resultado es un árbol con nodos y enlaces entre los nodos que se pueden leer a formar si-entonces reglas.
Regresión logística: Una técnica estadística que es una variante de regresión estándar sino que se extiende el concepto de tratar con la clasificación. Produce una fórmula que predice la probabilidad de la ocurrencia como una función de las variables independientes.
Redes neuronales: Un algoritmo de software que sigue el modelo de la arquitectura paralela de cerebros animales. La red consta de nodos de entrada, capas ocultas y nodos de salida. Cada unidad se le asigna un peso. Los datos se da al nodo de entrada, y por un sistema de prueba y error, el algoritmo ajusta los pesos hasta que se cumpla una serie de criterios de parada. Algunas personas han comparado a un enfoque de recuadro negro.
Técnicas de agrupamiento como K-vecinos más cercanos: Una técnica que identifica grupos de registros similares. La técnica de K vecinos más próximos calcula las distancias entre el disco y puntos en los datos históricos (formación). A continuación, asigna este registro a la clase de su vecino más cercano en un conjunto de datos.

He aquí un ejemplo de árbol de clasificación. Tenga en cuenta la situación en la que una compañía telefónica quiere determinar qué clientes residenciales es probable que desconectar su servicio.

La compañía telefónica tiene información que consta de los siguientes atributos: el tiempo que la persona ha tenido el servicio, de lo mucho que gasta en el servicio, si el servicio ha sido problemático, si él tiene el mejor plan de llamadas que necesita, dónde vive, cómo edad tiene, si tiene otros servicios agrupados, información sobre la competencia en relación con otros planes de transportistas, y si aún tiene el servicio.

Por supuesto, usted puede encontrar muchos más atributos que esto. El último atributo es el resultado variable esto es lo que el software utilizará para clasificar los clientes en uno de los dos grupos - tal vez llamados stayers y riesgos de vuelo.

El conjunto de datos se divide en datos de entrenamiento y un conjunto de datos de prueba. Los datos de entrenamiento consta de observaciones (llamados atributos) y una variable de resultado (binario en el caso de un modelo de clasificación) - en este caso, los stayers o los riesgos de vuelo.

El algoritmo se ejecuta sobre los datos de entrenamiento y viene con un árbol que se puede leer como una serie de reglas. Por ejemplo, si los clientes han estado con la compañía por más de diez años y son más de 55 años de edad, es probable que permanezca como clientes leales.

Estas reglas son luego se extienden sobre el conjunto de datos de prueba para determinar lo bueno que este modelo se encuentra en " nuevos datos ". Se proporcionan medidas de precisión para el modelo. Por ejemplo, una técnica popular es la matriz de confusión. Esta matriz es una tabla que proporciona información sobre el número de casos fueron clasificados correctamente frente incorrectamente.

Si el modelo se ve bien, se puede implementar en otros datos, ya que está disponible (es decir, utilizando para predecir nuevos casos de riesgo de fuga). Basado en el modelo, la empresa podría decidir, por ejemplo, para enviar ofertas especiales a los clientes los que piensa que son los riesgos de vuelo.

Sobre el autor

¿Cómo elegir un algoritmo para un modelo de análisis predictivo

Varios algoritmos estadísticos, de minería de datos, y la máquina de aprendizaje están disponibles para su uso en el modelo de análisis predictivo. Usted está en una mejor posición para seleccionar un algoritmo después de que haya definido…

¿Cómo crear una clasificación r análisis predictivo modelo

¿Quieres crear un modelo de análisis predictivo que pueda evaluar el uso de los resultados conocidos. Para hacer eso, dividir el semillas conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30…

Cómo crear un modelo de análisis predictivo con la regresión r

¿Quieres crear un modelo de análisis predictivo que se puede evaluar utilizando los resultados conocidos. Para ello, vamos a dividir nuestro conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30…

Cómo ensemble métodos para aumentar la precisión de predicción analítica

Al igual que en el mundo real, así que con la multiplicidad de modelos analíticos predictivos: Donde hay unidad, hay fuerza. Varios modelos pueden combinarse de diferentes maneras para hacer predicciones. A continuación, puede aplicar el modelo…

¿Cómo evaluar un modelo de aprendizaje no supervisado con k-medias

Después de que haya elegido su número de grupos de análisis predictivo y ha configurado el algoritmo para rellenar los racimos, usted tiene un modelo predictivo. Puedes hacer predicciones en base a nuevos datos entrantes llamando al predecir…

¿Cómo explicar los resultados de una clasificación r análisis predictivo modelo

Otra tarea de análisis predictivo es clasificar nuevos datos mediante la predicción de lo que la clase de un elemento de destino de los datos pertenece, dado un conjunto de variables independientes. Puede, por ejemplo, clasificar un cliente por…

Cómo cargar los datos en una clasificación r análisis predictivo modelo

El conjunto de datos se analizan para hacer una predicción sobre es el conjunto de datos Semillas, que se puede encontrar en la máquina de aprendizaje del repositorio UCI. Este conjunto de datos tiene 210 observaciones y 7 atributos, además de la…

Cómo nuevas predicciones analíticas con regresión r

Para hacer predicciones analíticas con nuevos datos, sólo tiene que utilizar la función con una lista de los siete valores de los atributos. El siguiente código hace ese trabajo:> NewPrediction lt; - predecir (modelo,
lista (cilindros =…

Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:Identificar las fuentes de…

Cómo probar el modelo de análisis predictivo

Para poner a prueba el modelo de análisis predictivo que construiste, es necesario dividir el conjunto de datos en dos conjuntos: formación y la prueba conjuntos de datos. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una…

Cómo utilizar la analítica supervisadas para entrenar modelos predictivos

En análisis supervisadas, tanto de entrada como de salida preferidos son parte de los datos de entrenamiento. El modelo de análisis predictivo se presenta con los resultados correctos como parte de su proceso de aprendizaje. Tal aprendizaje…

Cómo visualizar los resultados analíticos de su modelo: agrupaciones ocultos, clasificaciones de datos y valores atípicos

Visualización de los resultados de su análisis predictivo realmente ayuda a las partes interesadas a comprender los pasos a seguir. He aquí algunas maneras de utilizar técnicas de visualización para informar de los resultados de sus modelos a…

maniqui-es.com » Computadoras y software » Big Data » Ingeniería » La minería de datos para los datos de gran