¿Cómo lidiar con los valores extremos causados ​​por errores en el sistema

Cuando usted confía en la tecnología o la instrumentación para llevar a cabo una tarea de análisis predictivo, una falla aquí o allá pueden causar estos instrumentos para registrar los valores extremos o inusuales. Si los sensores registran los valores de observación que no cumplen las normas básicas de control de calidad, que pueden producir perturbaciones reales que se reflejan en los datos.

Alguien realizar la entrada de datos, por ejemplo, puede agregar fácilmente un extra 0 al final de un valor por error, teniendo la entrada fuera de rango y la producción de una de las demás.

Si usted está buscando en los datos de observación recopilados por un sensor de agua instalado en el puerto de Baltimore - y reporta una profundidad de 20 pies sobre el nivel del mar - que tienes un caso atípico. El sensor es obviamente erróneo menos que Baltimore está completamente cubierta por agua.

Los datos pueden llegar a tener los valores atípicos debido a eventos externos o un error por una persona o un instrumento.

Si un evento real, como un accidente de flash se remonta a un error en el sistema, sus consecuencias siguen siendo reales - pero si usted sabe el origen del problema, pueden concluir que un error en los datos, no el modelo, era culpar si su modelo no predijo el evento.

Conocer el origen del valor atípico guiará su decisión sobre la manera de tratar con él. Los valores atípicos que fueron el resultado de errores de entrada de datos se pueden corregir fácilmente previa consulta al origen de datos. Los valores atípicos que reflejan una realidad de cambio pueden pedirle que cambie su modelo.

No hay una talla única para todos respuesta cuando usted está decidiendo si incluir o caso omiso de los datos extremos que no es un error o fallo. Su respuesta depende de la naturaleza del análisis que está haciendo - y sobre el tipo de modelo que estamos construyendo. En unos pocos casos, la manera de lidiar con esos valores atípicos es sencillo:

  • Si se traza su valor extremo a un error de entrada de datos cuando consulte la fuente de datos, puede corregir fácilmente los datos y (probablemente) mantener intacto el modelo.

  • Si ese sensor de agua en el puerto de Baltimore informa agua a una profundidad de 20 pies sobre el nivel medio del mar, y que está en Baltimore, mira por la ventana:

  • Si Baltimore no está completamente cubierta por el agua, el sensor es obviamente erróneo.

  • Si ves un pez mirando en en usted, la realidad tiene transformados, puede que tenga que revisar su modelo.

  • El flash crash puede haber sido un evento de una sola vez (en el corto plazo, de todos modos), pero sus efectos eran reales - y si usted ha estudiado el mercado en el largo plazo, usted sabe que algo similar puede suceder de nuevo. Si su negocio está en las finanzas y hacer frente a la bolsa todo el tiempo, usted quiere que su modelo para dar cuenta de tales aberraciones.

  • En general, si el resultado de un evento que normalmente se considera un valor atípico puede tener un impacto significativo en su negocio, considere cómo hacer frente a esos eventos en su análisis. Mantenga estos puntos generales en cuenta acerca de los valores extremos:

    • El conjunto de datos más pequeño, más significativos los valores extremos de impacto puede tener en el análisis.

    • A medida que desarrolla su modelo, asegúrese de que también desarrolla técnicas para encontrar valores atípicos y entender sistemáticamente su impacto en su negocio.

    • Detección de valores atípicos pueden ser un procesamiento complejo no hay forma sencilla de identificarlos.

    • LA experto del dominio (alguien que conoce el terreno que está modelando) es la mejor persona go-to para verificar si un punto de datos es válida, un valor atípico se puede pasar por alto, o una de las demás que tienes que tener en cuenta. El experto de dominio debe ser capaz de explicar qué factores creó el valor atípico, ¿cuál es su rango de variabilidad, y su impacto en el negocio.

    • Las herramientas de visualización pueden ayudar a detectar anomalías en los datos. También, si se conoce el rango esperado de valores que se pueden consultar fácilmente los datos que cae fuera de ese rango.




    » » » » ¿Cómo lidiar con los valores extremos causados ​​por errores en el sistema