8 Mejores prácticas en la preparación de datos

Paquetes de software estadísticos son extremadamente poderosos en estos días, pero no pueden superar los datos de mala calidad. A continuación se presenta una lista de cosas que hay que hacer antes de ir fuera de la construcción de modelos estadísticos.

Conteúdo

Compruebe los formatos de datos
Verifique los tipos de datos
Grafique sus datos
Verificar la exactitud de datos
Identificar los valores atípicos
Hacer frente a los valores perdidos
Controle sus suposiciones sobre cómo se distribuyen los datos
Copia de seguridad y documentar todo lo que haces

Compruebe los formatos de datos

Su análisis comienza siempre con un archivo de datos brutos. Archivos de datos crudos vienen en muchas formas y tamaños diferentes. Datos de mainframe es diferente de datos de PC, los datos de hoja de cálculo tiene un formato diferente que los datos de la web, y así sucesivamente. Y en la era de los grandes datos, seguramente se enfrentará a los datos de una variedad de fuentes. El primer paso en el análisis de sus datos es asegurarse de que usted puede leer los archivos que le den.

Usted tiene que mirar realmente en lo que contiene cada campo. Por ejemplo, no es prudente confiar en que sólo porque un campo aparece como un campo de carácter, en realidad contiene datos de caracteres.

Verifique los tipos de datos

Todos los datos cae en una de las cuatro categorías que afectan qué tipo de estadísticas se puede aplicar adecuadamente a la misma:

Datos nominal es esencialmente sólo un nombre o un identificador.
Datos ordinal pone registros en orden de menor a mayor.
Los datos de intervalo representa los valores, donde las diferencias entre ellos son comparables.
Ratio de datos es como datos de intervalo excepto que también permite un valor de 0.

Es importante entender qué categorías de sus datos se divide en antes de alimentar en el software estadístico. De lo contrario, corre el riesgo de acabar con un galimatías perfectamente razonable de futuro.

Grafique sus datos

Conseguir una idea de cómo se distribuye de sus datos es importante. Puede ejecutar procedimientos estadísticos hasta que esté azul en la cara, pero ninguno de ellos le dará tanta información sobre lo que sus datos se parece como un gráfico simple.

Verificar la exactitud de datos

Una vez que se sienta cómodo que los datos se formatea la manera que usted desea, usted todavía tiene que asegurarse de que es correcta y que tiene sentido. Este paso requiere que usted tenga algún conocimiento de la materia que está trabajando.

No hay realmente un enfoque de corte y secado de verificar la exactitud de los datos. La idea básica es formular algunas propiedades que usted piensa que los datos deben exhibir y poner a prueba los datos para ver si esas propiedades tienen. Son precios de las acciones siempre positivo? ¿Todos los códigos de los productos se ajustan a la lista de los válidos? Esencialmente, usted está tratando de averiguar si los datos son realmente lo que le han dicho que es.

Identificar los valores atípicos

Los valores atípicos son puntos de datos que están fuera de sintonía con el resto de los datos. Ellos son o muy grandes o muy pequeños valores comparados con el resto del conjunto de datos.

Los valores atípicos son problemáticos, ya que pueden comprometer seriamente las estadísticas y los procedimientos estadísticos. Un único valor atípico puede tener un enorme impacto en el valor de la media. Debido a que la media se supone que representa el centro de los datos, en un sentido, esto hace que un valor atípico la media inútil.

Cuando nos enfrentamos a los valores atípicos, la estrategia más común es para eliminarlos. En algunos casos, sin embargo, es posible que desee tener en cuenta. En estos casos, por lo general es deseable hacer su análisis dos veces - una vez con valores atípicos incluidos y una vez con los valores atípicos excluidos. Esto le permite evaluar qué método da resultados más útiles.

Hacer frente a los valores perdidos

Los valores perdidos son uno de los problemas de datos más comunes (y molesto) que se encontrará. Su primer impulso podría ser la de dejar caer los registros con valores perdidos de su análisis. El problema con esto es que los valores que faltan con frecuencia no son pequeños fallos de datos simplemente al azar.

Controle sus suposiciones sobre cómo se distribuyen los datos

Muchos procedimientos estadísticos dependen de la suposición de que los datos se distribuyen de una manera determinada. Si este supuesto no puede ser el caso, la precisión de sus predicciones se resiente.

El supuesto más común para las técnicas de modelado se tratan en este libro es que los datos se distribuyen normalmente.

O no. En los casos en que los datos no se distribuye como usted necesita que sea, no todo está perdido necesariamente. Hay una variedad de maneras de transformar los datos para obtener la distribución en la forma que lo necesite.

Una de las mejores maneras de verificar la exactitud de un modelo estadístico es probar en realidad en contra de los datos una vez que está construido. Una forma de hacerlo es dividir aleatoriamente el conjunto de datos en dos archivos. Usted puede llamar a estos archivos de análisis y prueba, respectivamente.

Es necesario dividir los datos al azar para ser eficaz. Usted no puede simplemente dividir el conjunto de datos en la mitad superior y la mitad inferior, por ejemplo. Casi todos los archivos de datos se ordenan de algún modo - por fecha si nada más. Esto introduce patrones sistemáticos que darán diferentes partes de los archivos de diferentes propiedades estadísticas. Al dividir el archivo al azar, le das cada registro las mismas posibilidades de estar en cualquiera de los archivos. En sentido figurado, que está lanzando una moneda para cada registro para decidir qué archivo entra en. La aleatoriedad da tanto presenta las mismas propiedades estadísticas como los datos originales.

Una vez que haya dividido el conjunto de datos, dejar de lado el archivo de prueba. A continuación, proceder a construir su modelo predictivo utilizando el archivo de análisis. Una vez que el modelo se construye, que se aplican al archivo de prueba y ver cómo se hace.

Prueba de modelos de esta manera ayuda salvaguardia contra un fenómeno conocido como exceso de ajuste. Esencialmente, es posible que los procedimientos estadísticos para memorizar el archivo de datos en lugar de descubrir relaciones significativas entre las variables. Si se produce un exceso de ajuste, el modelo probará bastante mal con el archivo de prueba.

Copia de seguridad y documentar todo lo que haces

Debido a que el software estadístico es llegar a ser tan fácil de usar, es un pedazo de pastel para comenzar a generar informes y gráficos, por no hablar de los archivos de datos. Puede ejecutar procedimientos, literalmente, en el toque de un botón. Puede generar varias docenas de gráficos basados en diferentes transformaciones de datos en cuestión de unos pocos minutos. Eso hace que sea muy fácil perder la pista de lo que has hecho, y por qué.

Es importante asegurarse de que mantener un registro escrito de lo que estás haciendo. Los gráficos deben estar etiquetados con el nombre (y versión) de los datos que se utilizó para crearlos. Los procedimientos estadísticos que usted construye necesitan ser salvos y documentado.

También es importante realizar una copia de seguridad de archivos de sus datos. En el curso de su análisis, es probable que crear varias versiones de sus datos que reflejan diversas correcciones y transformación de variables. Debe guardar los procedimientos que crearon estas versiones. También deben estar documentados de forma que describe lo transformaciones que ha hecho y por qué.

La documentación no es tarea favorita de nadie, pero hablamos por experiencia cuando nos animamos a no confiar en su memoria cuando se trata de sus proyectos de análisis.

Trabajando a través de los pasos que acabamos de describir, a maximizar la fiabilidad de sus modelos estadísticos. En muchos casos, el trabajo de preparación es en realidad más tiempo que la construcción de modelos reales. Pero es necesario. Y usted mismo se lo agradecerá en el extremo para trabajar a través de él de forma metódica.

Sobre el autor

¿Cómo lidiar con los valores extremos causados por fuerzas externas

Esté seguro de comprobar cuidadosamente los valores atípicos antes de influyen en el análisis predictivo. Outliers pueden distorsionar tanto los datos y el análisis de datos. Por ejemplo, cualquier análisis estadístico realizado con los datos…

¿Cómo decidir si desea mantener los valores atípicos en el análisis predictivo

La decisión de incluir valores atípicos en el análisis - o excluirlos - tendrá implicaciones para su modelo de análisis predictivo. Mantener los valores atípicos como parte de los datos de su análisis puede conducir a un modelo que no es…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:Identificar las fuentes de…

Pruebas de hipótesis para los valores extremos de datos

Varias pruebas estadísticas formales que están diseñados para detectar valores atípicos de datos. Tres de ellos toman la forma de pruebas de hipótesis. Una prueba de hipótesis es un procedimiento para determinar si una proposición puede ser…

Faltan valores de sus datos

Uno de los problemas con los datos más frecuentes y más sucios para hacer frente a falta de datos. Los archivos pueden ser incompletos porque los registros fueron retirados o un dispositivo de almacenamiento se llenaron. O ciertos campos de datos…

Diagramas de tallo y hojas: técnica gráfica de datos estadísticos

LA tallo y hoja trama es un dispositivo gráfico en el que la distribución de un conjunto de datos está organizada por el valor numérico de las observaciones en el conjunto de datos. El diagrama consiste en una "madre", que muestra las diferentes…

¿Cómo trabajar con los archivos de datos no-csv en r

A pesar de que CSV (valores separados por comas) archivos son ampliamente utilizados para la importación y exportación de datos en R, que no siempre son el formato más apropiado. Algunos formatos de datos permiten la especificación de datos que…

Analizar los datos estadísticos de dos variables en la TI-83 Plus

La calculadora TI-83 Plus gráfica puede realizar análisis de datos estadísticos de una y dos variables. Para dos variables de análisis de datos, la variable de datos para la primera lista de datos se representa por X y la variable de datos para…

¿Cómo encontrar el valor de la mediana de un conjunto de datos estadísticos

La mediana es una estadística que se utiliza comúnmente para medir el centro de un conjunto de datos. Sin embargo, todavía es un héroe anónimo de las estadísticas en el sentido de que no se utiliza con tanta frecuencia como debe ser, aunque la…

¿Cómo se utilizan los valores z en las estadísticas

Si un conjunto de datos estadísticos tiene una distribución normal, se acostumbra a estandarizar todos los datos para obtener puntuaciones estándar conocido como z-valores o z-puntajes. La distribución de z-valores adquiere una distribución…

Cómo crear un diccionario de datos para describir sus datos bioestadística

Cada base de datos de la investigación, grande o pequeño, simple o complicada, debería ir acompañada de una Diccionario de datos que describe las variables contenidas en la base de datos. Será muy útil si la persona que creó la base de datos…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » 8 Mejores prácticas en la preparación de datos