8 Mejores prácticas en la preparación de datos
Paquetes de software estadísticos son extremadamente poderosos en estos días, pero no pueden superar los datos de mala calidad. A continuación se presenta una lista de cosas que hay que hacer antes de ir fuera de la construcción de modelos estadísticos.
Conteúdo
Compruebe los formatos de datos
Su análisis comienza siempre con un archivo de datos brutos. Archivos de datos crudos vienen en muchas formas y tamaños diferentes. Datos de mainframe es diferente de datos de PC, los datos de hoja de cálculo tiene un formato diferente que los datos de la web, y así sucesivamente. Y en la era de los grandes datos, seguramente se enfrentará a los datos de una variedad de fuentes. El primer paso en el análisis de sus datos es asegurarse de que usted puede leer los archivos que le den.
Usted tiene que mirar realmente en lo que contiene cada campo. Por ejemplo, no es prudente confiar en que sólo porque un campo aparece como un campo de carácter, en realidad contiene datos de caracteres.
Verifique los tipos de datos
Todos los datos cae en una de las cuatro categorías que afectan qué tipo de estadísticas se puede aplicar adecuadamente a la misma:
Datos nominal es esencialmente sólo un nombre o un identificador.
Datos ordinal pone registros en orden de menor a mayor.
Los datos de intervalo representa los valores, donde las diferencias entre ellos son comparables.
Ratio de datos es como datos de intervalo excepto que también permite un valor de 0.
Es importante entender qué categorías de sus datos se divide en antes de alimentar en el software estadístico. De lo contrario, corre el riesgo de acabar con un galimatías perfectamente razonable de futuro.
Grafique sus datos
Conseguir una idea de cómo se distribuye de sus datos es importante. Puede ejecutar procedimientos estadísticos hasta que esté azul en la cara, pero ninguno de ellos le dará tanta información sobre lo que sus datos se parece como un gráfico simple.
Verificar la exactitud de datos
Una vez que se sienta cómodo que los datos se formatea la manera que usted desea, usted todavía tiene que asegurarse de que es correcta y que tiene sentido. Este paso requiere que usted tenga algún conocimiento de la materia que está trabajando.
No hay realmente un enfoque de corte y secado de verificar la exactitud de los datos. La idea básica es formular algunas propiedades que usted piensa que los datos deben exhibir y poner a prueba los datos para ver si esas propiedades tienen. Son precios de las acciones siempre positivo? ¿Todos los códigos de los productos se ajustan a la lista de los válidos? Esencialmente, usted está tratando de averiguar si los datos son realmente lo que le han dicho que es.
Identificar los valores atípicos
Los valores atípicos son puntos de datos que están fuera de sintonía con el resto de los datos. Ellos son o muy grandes o muy pequeños valores comparados con el resto del conjunto de datos.
Los valores atípicos son problemáticos, ya que pueden comprometer seriamente las estadísticas y los procedimientos estadísticos. Un único valor atípico puede tener un enorme impacto en el valor de la media. Debido a que la media se supone que representa el centro de los datos, en un sentido, esto hace que un valor atípico la media inútil.
Cuando nos enfrentamos a los valores atípicos, la estrategia más común es para eliminarlos. En algunos casos, sin embargo, es posible que desee tener en cuenta. En estos casos, por lo general es deseable hacer su análisis dos veces - una vez con valores atípicos incluidos y una vez con los valores atípicos excluidos. Esto le permite evaluar qué método da resultados más útiles.
Hacer frente a los valores perdidos
Los valores perdidos son uno de los problemas de datos más comunes (y molesto) que se encontrará. Su primer impulso podría ser la de dejar caer los registros con valores perdidos de su análisis. El problema con esto es que los valores que faltan con frecuencia no son pequeños fallos de datos simplemente al azar.
Controle sus suposiciones sobre cómo se distribuyen los datos
Muchos procedimientos estadísticos dependen de la suposición de que los datos se distribuyen de una manera determinada. Si este supuesto no puede ser el caso, la precisión de sus predicciones se resiente.
El supuesto más común para las técnicas de modelado se tratan en este libro es que los datos se distribuyen normalmente.
O no. En los casos en que los datos no se distribuye como usted necesita que sea, no todo está perdido necesariamente. Hay una variedad de maneras de transformar los datos para obtener la distribución en la forma que lo necesite.
Una de las mejores maneras de verificar la exactitud de un modelo estadístico es probar en realidad en contra de los datos una vez que está construido. Una forma de hacerlo es dividir aleatoriamente el conjunto de datos en dos archivos. Usted puede llamar a estos archivos de análisis y prueba, respectivamente.
Es necesario dividir los datos al azar para ser eficaz. Usted no puede simplemente dividir el conjunto de datos en la mitad superior y la mitad inferior, por ejemplo. Casi todos los archivos de datos se ordenan de algún modo - por fecha si nada más. Esto introduce patrones sistemáticos que darán diferentes partes de los archivos de diferentes propiedades estadísticas. Al dividir el archivo al azar, le das cada registro las mismas posibilidades de estar en cualquiera de los archivos. En sentido figurado, que está lanzando una moneda para cada registro para decidir qué archivo entra en. La aleatoriedad da tanto presenta las mismas propiedades estadísticas como los datos originales.
Una vez que haya dividido el conjunto de datos, dejar de lado el archivo de prueba. A continuación, proceder a construir su modelo predictivo utilizando el archivo de análisis. Una vez que el modelo se construye, que se aplican al archivo de prueba y ver cómo se hace.
Prueba de modelos de esta manera ayuda salvaguardia contra un fenómeno conocido como exceso de ajuste. Esencialmente, es posible que los procedimientos estadísticos para memorizar el archivo de datos en lugar de descubrir relaciones significativas entre las variables. Si se produce un exceso de ajuste, el modelo probará bastante mal con el archivo de prueba.
Copia de seguridad y documentar todo lo que haces
Debido a que el software estadístico es llegar a ser tan fácil de usar, es un pedazo de pastel para comenzar a generar informes y gráficos, por no hablar de los archivos de datos. Puede ejecutar procedimientos, literalmente, en el toque de un botón. Puede generar varias docenas de gráficos basados en diferentes transformaciones de datos en cuestión de unos pocos minutos. Eso hace que sea muy fácil perder la pista de lo que has hecho, y por qué.
Es importante asegurarse de que mantener un registro escrito de lo que estás haciendo. Los gráficos deben estar etiquetados con el nombre (y versión) de los datos que se utilizó para crearlos. Los procedimientos estadísticos que usted construye necesitan ser salvos y documentado.
También es importante realizar una copia de seguridad de archivos de sus datos. En el curso de su análisis, es probable que crear varias versiones de sus datos que reflejan diversas correcciones y transformación de variables. Debe guardar los procedimientos que crearon estas versiones. También deben estar documentados de forma que describe lo transformaciones que ha hecho y por qué.
La documentación no es tarea favorita de nadie, pero hablamos por experiencia cuando nos animamos a no confiar en su memoria cuando se trata de sus proyectos de análisis.
Trabajando a través de los pasos que acabamos de describir, a maximizar la fiabilidad de sus modelos estadísticos. En muchos casos, el trabajo de preparación es en realidad más tiempo que la construcción de modelos reales. Pero es necesario. Y usted mismo se lo agradecerá en el extremo para trabajar a través de él de forma metódica.