Faltan valores de sus datos
Uno de los problemas con los datos más frecuentes y más sucios para hacer frente a falta de datos. Los archivos pueden ser incompletos porque los registros fueron retirados o un dispositivo de almacenamiento se llenaron. O ciertos campos de datos pueden contener datos de algunos registros. El primero de estos problemas se pueden diagnosticar simplemente verificar el recuento de registro para los archivos. El segundo problema es más difícil de tratar.
Para ponerlo en términos simples, cuando se encuentra un campo que contiene los valores perdidos, usted tiene dos opciones:
Ignoralo.
Pegue algo en el campo.
Ignorar el problema
En algunos casos, es posible que simplemente encontrar un solo campo con un gran número de valores perdidos. Si es así, lo más fácil de hacer es simplemente ignorar el campo. No incluya en su análisis.
Otra forma de ignorar el problema es ignorar el registro. Sólo tiene que eliminar el registro que contiene los datos que faltan. Esto puede tener sentido si hay sólo unos pocos registros canallas. Pero si hay varios campos de datos que contienen un número significativo de los valores perdidos, este enfoque puede reducir su registro de cuenta a un nivel inaceptable.
Otra cosa a tener en cuenta antes de simplemente eliminar registros es ningún signo de un patrón. Por ejemplo, supongamos que está analizando un conjunto de datos relacionados con los saldos de tarjetas de crédito en todo el país. Usted también puede encontrar un montón de registros que muestren $ 0.00 saldos (tal vez alrededor de la mitad de los registros). Esto no es en sí misma una indicación de los datos que faltan. Sin embargo, si todos los registros de, digamos, California están mostrando $ 0.00 saldos, que indica un problema potencial de valores perdidos. Y no es uno que sería útil resuelto mediante la supresión de todos los registros desde el estado más grande del país. En este caso, es probable que sea un problema de sistemas e indica que un nuevo archivo debe ser creado.
En general, la eliminación de registros es una manera fácil, pero no es ideal, solución a los problemas de falta de valor. Si el problema es relativamente pequeño y no hay un patrón discernible de las omisiones, entonces puede estar bien para deshacerse de los registros ofensivos y seguir adelante. Pero con frecuencia se justifica un enfoque más culta.
La cumplimentación de los datos que faltan
La cumplimentación de los datos que faltan equivale a hacer una conjetura sobre lo que habría sido en ese campo. Hay buenas y malas maneras de hacer esto. Una simple (pero mal) enfoque es reemplazar los valores perdidos con la media de los que no faltan. En los campos no numéricos, podría verse tentado a poblar los registros faltantes con el valor más común en los otros registros (el modo).
Estos enfoques se, por desgracia, todavía se utilizan con frecuencia en algunas aplicaciones de negocios. Pero ellos son ampliamente consideradas por los estadísticos como malas ideas. Por un lado, el objetivo de hacer el análisis estadístico es encontrar datos que diferencia uno de los resultados de otro. Mediante la sustitución de todos los registros que faltan con el mismo valor, no se ha diferenciado nada.
El enfoque más culta es tratar de encontrar una manera de predecir de una manera significativa el valor que debe ser llenado en cada registro que falta un valor. Esto implica mirar los registros completos y tratando de encontrar pistas sobre lo que podría ser el valor que falta.
Supongamos que se analiza un archivo demográfica para predecir probables compradores de uno de sus productos. En ese archivo que tiene, entre otros campos, la información sobre el estado civil, número de hijos, y el número de automóviles. Por alguna razón, el número de campo de autos no se encuentra en una tercera parte de los registros.
Mediante el análisis de los otros dos campos - estado civil y número de hijos - usted puede descubrir algunos patrones. Los solteros tienden a tener un coche. Las personas casadas sin hijos tienden a tener dos coches. Las personas casadas con más de un niño pueden ser más propensos a tener tres coches. De esta manera, se puede adivinar los valores perdidos de una manera que realmente diferencia a los registros. Más acerca de este enfoque por venir.
No es un término general en las estadísticas y los datos de procesamiento que se refiere a los datos cuestionables. El termino ruidoso se utiliza para describir datos que no es fiable, corruptos, o de otra manera menos prístina. Los datos que faltan es sólo un ejemplo de esto. Una descripción detallada de las técnicas para la limpieza de datos con ruido, en general, está más allá del alcance de este libro. De hecho, esta es un área activa de investigación en la teoría estadística. El hecho de que todo el ruido no es tan fácil de detectar como valores perdidos hace que sea molesto para tratar.