Los conjuntos de datos que incluyen fechas

Usted muy raramente se encuentra con un conjunto de datos que no incluya fechas. Compra fechas, fechas de nacimiento, fechas de actualización, fechas de cotización, y la lista continúa. En casi todos los contextos, se requiere algún tipo de fecha para obtener una imagen completa de la situación que está tratando de analizar.

Tratar con fechas puede ser un poco complicado, en parte debido a la variedad de formas de almacenar ellos. Pero también, dependiendo de lo que estamos tratando de hacer, es posible que sólo necesita parte de la fecha. Aquí hay algunas situaciones comunes a tener en cuenta.

Tratar con los formatos de fecha y hora

Para empezar, la mayoría de los sistemas de gestión de bases de datos tienen una forma muy precisa de almacenar fechas internamente: Utilizan un fecha y hora. Esto es exactamente lo que parece: un mashup de la fecha y la hora. Por ejemplo, un formato común se ve así:

2014 a 11 - 2414: 25: 44

Eso significa 25 minutos y 44 segundos pasados ​​14:00 el 24 de noviembre de 2014.

La aparente excesivo detalle aquí es raramente utilizado en su totalidad. Con mucho, el usuario más común del detalle completo es el sistema de gestión de base de datos en sí. Es una práctica común para las bases de datos para poner un sello de fecha y hora en cada disco para indicar cuando se creó el registro y la fecha de la última actualización. Los sistemas de Nueva York Stock Exchange en realidad llevar un registro de las marcas de tiempo comercial para una precisión aún mayor.

Para la mayoría de aplicaciones analíticas, sin embargo, se trata de más detalles que usted quiere.

Si está analizando el precio de cierre de una acción en el tiempo, no estar interesado en algo más que el día o tal vez el mes asociado a cada precio de cierre. Si usted está haciendo un análisis demográfico de las distribuciones de edad, el año de nacimiento puede ser todo lo que es relevante.

Fechas de nacimiento son un buen ejemplo de algo que puede encontrar con los datos de fecha y hora. Aunque los datos pueden ser almacenados en un campo de fecha y hora, puede ser el caso de que se está utilizando realmente sólo parte del campo. Fechas de nacimiento suelen tener la porción de tiempo por defecto en 00:00:00 para cada registro.

Por suerte, ambos sistemas de bases de datos y software analítico se han incorporado en las funciones que le permiten extraer sólo la parte de la fecha y hora que sea relevante para usted. Usted puede optar por extraer sólo la parte de fecha, sólo el mes y el año, sólo el año, y así sucesivamente. Y, de hecho, esto se hace a menudo para usted antes de que usted vea los datos.

Teniendo en cuenta la geografía

En el nuevo mundo de la economía global, es probable encontrar datos que han sido recogidos de muchos lugares diferentes. Cualquiera que haya intentado programar una conferencia telefónica internacional es muy consciente de la logística necesaria para hacer frente a múltiples zonas horarias. Cada vez más común hoy en día son la conferencia posterior a la medianoche llama con la India.

Un ejemplo de datos grandes típico implica la gestión de la cadena de suministro. Gestión de la cadena de suministro es el actual proceso de tratar de administrar las materias primas, inventarios, distribución y cualquier otro aspecto relevante de los negocios de una empresa. Es la forma en Walmart mantiene estantes abastecidos, cómo UPS realiza un seguimiento de los paquetes, y cómo se las arregla Amazon para ofrecer casi cualquier cosa imaginable en casi cualquier lugar.

En estos ejemplos, el análisis que subyace en la gestión de la cadena de suministro tiene que tomar en cuenta que los datos proviene de diferentes zonas horarias. Cuando nos enfrentamos a situaciones como ésta, los datos de fecha y hora deben ser tratados con cuidado.

Supongamos que un paquete es enviado desde California a las 10 de la mañana del miércoles y se entrega a su destino final en Nueva York, el jueves a las 10 am Si usted está interesado en el análisis de los plazos de entrega, es necesario tener en cuenta el cambio de zona horaria. En este ejemplo, el plazo de entrega es en realidad 21 horas, no 24.

Cuando se trata de los datos de fecha y hora recogidos de diferentes husos horarios, no se puede simplemente comparar diferentes puntos de datos a partir de los datos brutos. Usted necesita primero asegurarse de que todos los datetimes están representados en una zona horaria común. ¿Qué zona horaria que se utiliza es un tanto arbitraria, siempre y cuando todos los puntos de datos están utilizando la misma.

Hay otra geográficamente - o, para ser más exactos, culturalmente - hecho relacionado que usted necesita para tener en cuenta. No todos los países representan las fechas de la misma manera. Los EE.UU. es realmente algo único en la representación de fechas como mes / día / año. Canadá y la mayor parte de Europa prefieren usar el día de convenciones / mes / año. También puede ejecutar a través de variaciones a partir del año.

Cómo el software piensa en fechas

Las fechas se utilizan en una variedad de maneras en el análisis de datos. A veces, como en el análisis de precio de las acciones, su función principal es poner las observaciones en orden desde temprano a la última. Pero en otros casos, se utilizan para medir intervalos de tiempo.

En ingeniería, particularmente en aplicaciones de control de calidad, una estadística clave es tiempo hasta el fracaso significaría. Esto es simplemente el promedio de vida de una parte o producto. Para los productos de larga vida, como piezas de automóviles y bombillas, este cálculo requiere la comparación de fechas.

En la cara de ella, 15 de agosto 2013, menos 01 de enero 2010 no tiene mucho sentido matemáticamente. Todos sabemos lo que se quiere decir con esto, pero se necesita un poco de pensamiento para obtener la respuesta. Por esta razón, muchos paquetes estadísticos, cuando se enfrentan con las fechas, se convierten inmediatamente en un número con el fin de facilitar las comparaciones. Lo hacen por recoger algún punto de partida y calcular el número de días entre ese punto de partida y la fecha en que se está convirtiendo.

Por ejemplo, un gran fabricante de software estadístico, SAS, utiliza la fecha de 01 de enero 1960 como punto de partida. Esta fecha tiene el valor 0. Almacena cada fecha como el número de días que está lejos de este punto de partida. Por lo tanto, SAS piensa 1 de enero de 1961 como 366 (recuerda, 1960 fue un año bisiesto, y 1 de enero es el día 0, no día 1). El punto de partida es fabricantes de software arbitrarios y diferentes utilizan diferentes puntos de partida, pero la idea es la misma.

Una consecuencia impar de esta convención es que si nos fijamos en los datos brutos, no sólo son todos los dátiles enteros, sino que ni siquiera tienen que ser enteros positivos. En el ejemplo de SAS, 01 de enero 1959 se representaría como -365.

En cualquier caso, esta forma de manipulación de fechas facilita los cálculos. Al convertir la fecha a un número en la entrada, el sistema evita tener que pasar por el aro cada vez que se realiza un cálculo que implica esa fecha.




» » » » Los conjuntos de datos que incluyen fechas