La minería de datos para los datos de gran

La minería de datos consiste en explorar y analizar grandes cantidades de datos para encontrar las pautas de los grandes datos. Las técnicas salieron de los campos de la estadística y la inteligencia artificial (IA), con un poco de gestión de base de datos arrojados a la mezcla.

En general, el objetivo de la minería de datos es o clasificación o predicción. En la clasificación, la idea es ordenar los datos en grupos. Por ejemplo, un vendedor podría estar interesado en las características de los que respondieron frente a quien no respondió a una promoción.

Estos son dos clases. En la predicción, la idea es predecir el valor de una variable continua. Por ejemplo, un vendedor podría estar interesado en la predicción de los que será responder a una promoción.

Algoritmos típicos utilizados en la minería de datos son los siguientes:

  • Árboles de clasificación: Una técnica de minería de datos popular que se utiliza para clasificar una variable dependiente categórica basada en mediciones de una o más variables predictoras. El resultado es un árbol con nodos y enlaces entre los nodos que se pueden leer a formar si-entonces reglas.

  • Regresión logística: Una técnica estadística que es una variante de regresión estándar sino que se extiende el concepto de tratar con la clasificación. Produce una fórmula que predice la probabilidad de la ocurrencia como una función de las variables independientes.

  • Redes neuronales: Un algoritmo de software que sigue el modelo de la arquitectura paralela de cerebros animales. La red consta de nodos de entrada, capas ocultas y nodos de salida. Cada unidad se le asigna un peso. Los datos se da al nodo de entrada, y por un sistema de prueba y error, el algoritmo ajusta los pesos hasta que se cumpla una serie de criterios de parada. Algunas personas han comparado a un enfoque de recuadro negro.

  • Técnicas de agrupamiento como K-vecinos más cercanos: Una técnica que identifica grupos de registros similares. La técnica de K vecinos más próximos calcula las distancias entre el disco y puntos en los datos históricos (formación). A continuación, asigna este registro a la clase de su vecino más cercano en un conjunto de datos.

He aquí un ejemplo de árbol de clasificación. Tenga en cuenta la situación en la que una compañía telefónica quiere determinar qué clientes residenciales es probable que desconectar su servicio.

La compañía telefónica tiene información que consta de los siguientes atributos: el tiempo que la persona ha tenido el servicio, de lo mucho que gasta en el servicio, si el servicio ha sido problemático, si él tiene el mejor plan de llamadas que necesita, dónde vive, cómo edad tiene, si tiene otros servicios agrupados, información sobre la competencia en relación con otros planes de transportistas, y si aún tiene el servicio.

Por supuesto, usted puede encontrar muchos más atributos que esto. El último atributo es el resultado variable esto es lo que el software utilizará para clasificar los clientes en uno de los dos grupos - tal vez llamados stayers y riesgos de vuelo.

El conjunto de datos se divide en datos de entrenamiento y un conjunto de datos de prueba. Los datos de entrenamiento consta de observaciones (llamados atributos) y una variable de resultado (binario en el caso de un modelo de clasificación) - en este caso, los stayers o los riesgos de vuelo.

El algoritmo se ejecuta sobre los datos de entrenamiento y viene con un árbol que se puede leer como una serie de reglas. Por ejemplo, si los clientes han estado con la compañía por más de diez años y son más de 55 años de edad, es probable que permanezca como clientes leales.

Estas reglas son luego se extienden sobre el conjunto de datos de prueba para determinar lo bueno que este modelo se encuentra en " nuevos datos ". Se proporcionan medidas de precisión para el modelo. Por ejemplo, una técnica popular es la matriz de confusión. Esta matriz es una tabla que proporciona información sobre el número de casos fueron clasificados correctamente frente incorrectamente.

Si el modelo se ve bien, se puede implementar en otros datos, ya que está disponible (es decir, utilizando para predecir nuevos casos de riesgo de fuga). Basado en el modelo, la empresa podría decidir, por ejemplo, para enviar ofertas especiales a los clientes los que piensa que son los riesgos de vuelo.




» » » » La minería de datos para los datos de gran