Cómo limpiar los datos para el análisis predictivo

Antes de ejecutar un análisis predictivo, usted necesita para asegurarse de que los datos están limpias de cosas extrañas antes de poder utilizarlo en su modelo. Esto incluye encontrar y corregir todos los registros que contienen valores erróneos, y tratar de llenar los valores perdidos. También tendrá que decidir si se debe incluir registros duplicados (dos cuentas de clientes, por ejemplo).

El objetivo general es garantizar la integridad de la información que está utilizando para construir su modelo predictivo. Preste especial atención a la integridad, exactitud y actualidad de los datos.

Es útil para crear estadísticas descriptivas (características cuantitativas) para diversos campos, tales como el cálculo de mínimo y máximo, comprobando distribución de frecuencias (con qué frecuencia ocurre algo) y la verificación de los rangos esperados. Ejecución de un control regular puede ayudar a la bandera de los datos que se encuentra fuera del rango esperado para una mayor investigación. Todos los registros que muestran los jubilados con fechas de nacimiento en la década de 1990 pueden ser marcados por este método.

Además, el cotejo de la información es importante para que se asegure de que los datos son exactos. Para un análisis más profundo de las características de los datos y la identificación de la relación entre los registros de datos, se puede hacer uso de perfiles de datos (análisis de la disponibilidad de datos y la recopilación de estadísticas sobre la calidad de los datos), y herramientas de visualización.

Los datos que faltaban podría ser debido al hecho de que la información en particular no fue grabada. En tal caso, se puede tratar de llenar lo más que puede- valores predeterminados adecuados pueden ser fácilmente añadidos para llenar los espacios en blanco de ciertos campos.

Por ejemplo, para los pacientes en una sala de maternidad del hospital donde el campo de género le falta un valor, la aplicación puede simplemente rellenarlo como femenina. Por lo demás, para cualquier varón que ingresó en un hospital con un registro que falta para el estado de embarazo, ese registro de manera similar se puede llenar en lo que no proceda.

Un código postal falta de una dirección se puede inferir a partir del nombre de la calle y la ciudad siempre en esa dirección.

En los casos en que se desconoce la información o no se puede deducir, entonces usted tendría que usar los valores otro que un espacio en blanco para indicar que los datos faltan sin afectar a la exactitud del análisis. Un espacio en blanco en los datos puede significar varias cosas, la mayoría de ellos no es bueno o útil. Siempre que pueda, debe especificar la naturaleza de ese espacio en blanco por el lugar de carga significativa.

Así como es posible definir una rosa en un campo de maíz como una mala hierba, los valores extremos puede significar diferentes cosas para diferentes análisis. Es común que algunos modelos que se construirá exclusivamente para rastrear esos valores atípicos y marcarlos.

Modelos de detección de fraude y monitoreo de actividades criminales están interesados ​​en esos valores extremos, que en estos casos indican algo que tiene lugar no deseado. Se recomienda por lo que mantener los valores atípicos en el conjunto de datos en casos como estos. Sin embargo, cuando los valores extremos se consideran anomalías en los datos - y sólo sesgar los análisis y dar lugar a resultados erróneos - sacarlos de sus datos.

La duplicación de los datos también puede ser útil o un nuisance- parte de ella puede ser necesario, puede indicar el valor, y puede reflejar un estado preciso de los datos. Por ejemplo, un registro de un cliente con varias cuentas se puede representar con múltiples entradas que se (técnicamente, de todos modos) duplican y repetitivas de los mismos registros.

De la misma manera, cuando los registros duplicados no aportan valor al análisis y no son necesarios, y luego la eliminación de ellos pueden ser de enorme valor. Esto es especialmente cierto para grandes conjuntos de datos, donde la eliminación de registros duplicados puede simplificar la complejidad de los datos y reducir el tiempo necesario para el análisis.

Puede preventivamente evitar datos incorrectos de la introducción de sus sistemas mediante la adopción de algunos procedimientos específicos:

  • Instituto controles y datos de calidad de la validación de todos los datos que se recogieron.

  • Permita que sus clientes para validar y auto-corregir sus datos personales.

  • Proporcione a sus clientes posibles y esperados valores para elegir.

  • Rutinariamente ejecutar controles sobre la integridad, la coherencia y precisión de los datos.




» » » » Cómo limpiar los datos para el análisis predictivo