¿Cómo generar los datos derivados y reducir su dimensionalidad de análisis predictivo

En esta fase de exploración del análisis predictivo, obtendrá un conocimiento íntimo de sus datos - que a su vez le ayudará a elegir las variables relevantes para analizar. Este entendimiento también le ayudará a evaluar los resultados de su modelo. Pero primero hay que identificar y limpiar los datos para su análisis.

¿Cómo generar datos derivados

Atributos derivados son totalmente nuevos registros construidas a partir de uno o más atributos existentes. Un ejemplo podría ser la creación de registros de identificación de libros que son éxitos de ventas en las ferias del libro. Los datos primarios pueden no capturar esos registros - pero para fines de modelado, los registros derivados pueden ser importantes. Precio-por-ganancias relación y el promedio móvil de 200 días son dos ejemplos de datos derivados que se utilizan mucho en las aplicaciones financieras.

Los atributos derivados se pueden obtener de cálculo simples, tales como la deducción de edad a partir de la fecha de nacimiento. Atributos derivados también se pueden calcular con un resumen de la información de múltiples registros.

Por ejemplo, la conversión de una tabla de clientes y sus libros comprados en una tabla puede permitirle hacer un seguimiento del número de libros vendidos a través de un sistema de recomendación, a través de marketing dirigido, y en una feria del libro - e identificar las características demográficas de los clientes que compraron estos libros .

La generación de este tipo de atributos adicionales traer poder predictivo adicional para el análisis. De hecho, muchos de estos atributos se crean con el fin de investigar su potencial capacidad de predicción. Algunos modelos predictivos pueden utilizar atributos más derivados que los atributos en su estado crudo. Si algunos atributos derivados resultan especialmente predictivo y su poder está demostrado ser relevante, entonces tiene sentido para automatizar el proceso que las genera.

Registros obtenidos son nuevos registros que aportan nueva información y proporcionar nuevas formas de presentación de datos en bruto que pueden ser de gran valor para el modelado predictivo.

¿Cómo reducir la dimensionalidad de los datos

Los datos utilizados en los modelos de predicción por lo general se reúnen a partir de múltiples fuentes. Su análisis se puede extraer de los datos dispersos a través de múltiples formatos de datos, archivos y bases de datos, o varias tablas en la misma base de datos. El agrupamiento de los datos juntos y combinar en un formato integrado de los modeladores de datos a utilizar es esencial.

Si sus datos contiene ningún contenido jerárquico, es posible que sea necesario aplanado. Algunos datos tiene algunas características jerárquicas, como las relaciones entre padres e hijos, o un registro que se compone de otros registros. Por ejemplo, un producto como un coche puede tener múltiples datos aplanamiento makers-, en este caso, significa que incluye cada fabricante como una característica adicional del registro que está analizando.

El aplanamiento de datos es esencial cuando se fusionó desde múltiples registros relacionados para formar una mejor imagen.

Por ejemplo, el análisis de eventos adversos para varios medicamentos realizados por varias compañías pueden requerir que los datos se aplana en el nivel de sustancias. De esta manera, se termina la eliminación de la uno-a-muchas relaciones (en este caso, muchos fabricantes y muchas sustancias de un producto) que pueden causar demasiada duplicación de datos mediante la repetición de varias entradas de sustancias que se repiten información del producto y el fabricante en cada entrada.

Aplanamiento reduce la dimensionalidad de los datos, que está representado por el número de características un registro o una observación tiene.

Por ejemplo, un cliente puede tener las siguientes características: nombre, edad, dirección, artículos comprados. Al iniciar el análisis, puede que te encuentres que evaluaron los registros con muchas características, sólo algunos de los cuales son importantes para el análisis. Por lo que debe eliminar a todos, pero las pocas características que tienen el mayor poder predictivo para su proyecto específico.

La reducción de la dimensionalidad de los datos se puede lograr poniendo todos los datos en una sola tabla que utiliza múltiples columnas para representar atributos de interés. Al comienzo del análisis, por supuesto, el análisis tiene que evaluar un gran número de columnas - pero ese número puede ser reducido mientras progresa el análisis.

Este proceso puede ser ayudado mediante la reconstitución de los campos - por ejemplo, mediante la agrupación de los datos en categorías que tienen características similares.

El conjunto de datos resultante - el conjunto de datos limpia - por lo general se pone en una base de datos para que los analistas utilicen. Durante el proceso de modelado, este dato debe ser de fácil acceso, logró, y se mantiene hasta la fecha.




» » » » ¿Cómo generar los datos derivados y reducir su dimensionalidad de análisis predictivo