¿Cómo generar los datos derivados y reducir su dimensionalidad de análisis predictivo

En esta fase de exploración del análisis predictivo, obtendrá un conocimiento íntimo de sus datos - que a su vez le ayudará a elegir las variables relevantes para analizar. Este entendimiento también le ayudará a evaluar los resultados de su modelo. Pero primero hay que identificar y limpiar los datos para su análisis.

Conteúdo

¿cómo generar datos derivados
¿cómo reducir la dimensionalidad de los datos

¿Cómo generar datos derivados

Atributos derivados son totalmente nuevos registros construidas a partir de uno o más atributos existentes. Un ejemplo podría ser la creación de registros de identificación de libros que son éxitos de ventas en las ferias del libro. Los datos primarios pueden no capturar esos registros - pero para fines de modelado, los registros derivados pueden ser importantes. Precio-por-ganancias relación y el promedio móvil de 200 días son dos ejemplos de datos derivados que se utilizan mucho en las aplicaciones financieras.

Los atributos derivados se pueden obtener de cálculo simples, tales como la deducción de edad a partir de la fecha de nacimiento. Atributos derivados también se pueden calcular con un resumen de la información de múltiples registros.

Por ejemplo, la conversión de una tabla de clientes y sus libros comprados en una tabla puede permitirle hacer un seguimiento del número de libros vendidos a través de un sistema de recomendación, a través de marketing dirigido, y en una feria del libro - e identificar las características demográficas de los clientes que compraron estos libros .

La generación de este tipo de atributos adicionales traer poder predictivo adicional para el análisis. De hecho, muchos de estos atributos se crean con el fin de investigar su potencial capacidad de predicción. Algunos modelos predictivos pueden utilizar atributos más derivados que los atributos en su estado crudo. Si algunos atributos derivados resultan especialmente predictivo y su poder está demostrado ser relevante, entonces tiene sentido para automatizar el proceso que las genera.

Registros obtenidos son nuevos registros que aportan nueva información y proporcionar nuevas formas de presentación de datos en bruto que pueden ser de gran valor para el modelado predictivo.

¿Cómo reducir la dimensionalidad de los datos

Los datos utilizados en los modelos de predicción por lo general se reúnen a partir de múltiples fuentes. Su análisis se puede extraer de los datos dispersos a través de múltiples formatos de datos, archivos y bases de datos, o varias tablas en la misma base de datos. El agrupamiento de los datos juntos y combinar en un formato integrado de los modeladores de datos a utilizar es esencial.

Si sus datos contiene ningún contenido jerárquico, es posible que sea necesario aplanado. Algunos datos tiene algunas características jerárquicas, como las relaciones entre padres e hijos, o un registro que se compone de otros registros. Por ejemplo, un producto como un coche puede tener múltiples datos aplanamiento makers-, en este caso, significa que incluye cada fabricante como una característica adicional del registro que está analizando.

El aplanamiento de datos es esencial cuando se fusionó desde múltiples registros relacionados para formar una mejor imagen.

Por ejemplo, el análisis de eventos adversos para varios medicamentos realizados por varias compañías pueden requerir que los datos se aplana en el nivel de sustancias. De esta manera, se termina la eliminación de la uno-a-muchas relaciones (en este caso, muchos fabricantes y muchas sustancias de un producto) que pueden causar demasiada duplicación de datos mediante la repetición de varias entradas de sustancias que se repiten información del producto y el fabricante en cada entrada.

Aplanamiento reduce la dimensionalidad de los datos, que está representado por el número de características un registro o una observación tiene.

Por ejemplo, un cliente puede tener las siguientes características: nombre, edad, dirección, artículos comprados. Al iniciar el análisis, puede que te encuentres que evaluaron los registros con muchas características, sólo algunos de los cuales son importantes para el análisis. Por lo que debe eliminar a todos, pero las pocas características que tienen el mayor poder predictivo para su proyecto específico.

La reducción de la dimensionalidad de los datos se puede lograr poniendo todos los datos en una sola tabla que utiliza múltiples columnas para representar atributos de interés. Al comienzo del análisis, por supuesto, el análisis tiene que evaluar un gran número de columnas - pero ese número puede ser reducido mientras progresa el análisis.

Este proceso puede ser ayudado mediante la reconstitución de los campos - por ejemplo, mediante la agrupación de los datos en categorías que tienen características similares.

El conjunto de datos resultante - el conjunto de datos limpia - por lo general se pone en una base de datos para que los analistas utilicen. Durante el proceso de modelado, este dato debe ser de fácil acceso, logró, y se mantiene hasta la fecha.

Sobre el autor

Cómo convertir los datos en bruto en una matriz de análisis predictivo

Antes de poder extraer grupos de elementos de datos similares de su conjunto de datos para su proyecto de análisis predictivo, puede que tenga que representar los datos en un formato tabular conocido como matriz de datos. Se trata de un paso de…

¿Cómo lidiar con valores duplicados en sus datos

Los datos se almacenan en diferentes maneras en diferentes sistemas. Así que no es de extrañar que al recoger y consolidar datos de varias fuentes, es posible que los duplicados pop-up. En particular, lo que hace que un registro individual único…

¿Cómo extraer, transformar y cargar los datos para el análisis predictivo

Después de que se recogió inicialmente, los datos son por lo general en una dispersado estados reside en múltiples sistemas o bases de datos y debe ser analizada antes de la predicción de nada. Antes de que pueda utilizarlo para un modelo de…

¿Cómo encontrar valor en su análisis de datos predictivo

Cualquier viaje exitoso requiere preparación seria. Modelos de análisis predictivo son esencialmente una inmersión profunda en grandes cantidades de datos. Si los datos no está bien preparada, el modelo de análisis predictivo saldrá de la…

Cómo identificar los datos para el análisis predictivo

Para su proyecto de análisis predictivo, que necesitará para identificar fuentes apropiadas de datos, agrupar los datos de esas fuentes, y lo puso en un formato estructurado, bien organizado. Estas tareas pueden ser muy difícil y probablemente…

Cómo mantener predictivo análisis de datos al día

Después de la etapa de carga de extraer, transformar, cargar, después de obtener sus datos en esa base de datos separada, data mart, o almacén para el análisis, usted necesita para mantener los datos frescos por lo que los modeladores pueden…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:Identificar las fuentes de…

Cómo utilizar el análisis predictivo para satisfacer a los clientes

La competencia mundial impulsa a las empresas a precios más bajos para atraer a nuevos clientes. Por suerte, el análisis predictivo puede ayudar aquí. Las empresas se esfuerzan por complacer a sus clientes y ganar nuevos clientes ones- demandan…

Cómo utilizar mahout apache para análisis predictivo

Una herramienta de código abierto que es únicamente útil en el análisis predictivo es Apache Mahout. Esta biblioteca de aprendizaje de máquinas incluye versiones a gran escala de la agrupación, clasificación, filtrado colaborativo y otros…

Cómo visualizar el análisis predictivo "datos brutos

Una imagen vale más que mil palabras - especialmente cuando usted está tratando de conseguir un buen control sobre sus datos de análisis predictivos. En la etapa de pre-procesamiento, mientras que usted se está preparando sus datos, es una…

El análisis predictivo para los maniquíes

Un exitoso proyecto de análisis predictivo se ejecuta paso a paso. Al sumergirse en los detalles del proyecto, esté atento a estos hitos principales:Definición de objetivos de negocioEl proyecto comienza con el uso de un objetivo de negocio bien…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » ¿Cómo generar los datos derivados y reducir su dimensionalidad de análisis predictivo