Servicios Middleware: la garantía de calidad de los datos

Debe establecer dos servicios diferentes de control de calidad (QA) en el flujo de servicios de middleware. Usted tiene que realizar las primeras tareas de control de calidad contra el extracto de la fuente de datos antes de realizar cualquier servicio de más de middleware.

Aseguramiento de la calidad de datos: parte I

Intenta atrapar (y correcta) errores y problemas tan temprano en el proceso como sea posible. Mover datos por la tubería hacia el almacén de datos es inútil si los problemas son tan significativos que, o bien requieren mucho más esfuerzo para corregir más adelante en el proceso o simplemente no se pueden corregir.

Entonces, ¿qué tipos de problemas debe buscar? Aquí están algunos:

  • Los valores de los elementos de datos que exceden un rango razonable: Un cliente ha enviado 150 millones de órdenes de compra en el mes pasado, por ejemplo, o un empleado ha trabajado en la compañía durante 4.297 años, según la base de datos de los empleados y la fecha de contratación almacenado.

  • Los valores de los elementos de datos que no encajan en la lista oficial y completa de los valores permisibles: Un valor podría tener un un código, por ejemplo, cuando los únicos valores permitidos para este campo son M y F. (Si ese campo fueron etiquetados GÉNERO, A podrían presentarse a las andrógina!)

  • Inconsistencias Cruz-mesa: Para las entradas de la tabla CUSTOMER_ORDER, no existen entradas correspondientes (como identificados por ID_CLIENTE) en el CUSTOMER_MASTER_TABLE.

  • Inconsistencias Cruz de campo: Los registros que tienen un estado incorrecto o Código Postal de la ciudad indicaron.

  • Valores faltantes: Los registros que tienen valores que faltan en ciertos campos donde deberían tener contenidos.

  • Brechas de datos: Por ejemplo, una tabla de origen debe contener una fila de datos que incluye el total de unidades vendidas y ventas de dólares por cada mes durante los últimos dos años. Para un gran número de clientes, sin embargo, no existen filas por lo menos uno de esos meses.

  • Datos incompletos: Si la información sobre todos los productos de la empresa vende se supone que estará disponible, por ejemplo, son todos los productos incluidos en el extracto?

  • Violaciónes de las reglas de negocio: Si una regla de negocio indica que sólo un mayorista puede vender productos a cualquiera de los clientes de la compañía, usted debe comprobar para ver si alguno de los registros de clientes indican las ventas realizadas a través de más de un mayorista, lo que podría indicar datos incorrectos en la fuente.

  • La corrupción de datos desde el último extracto: Si la extracción se produce mensualmente, por ejemplo, se debe realizar un seguimiento de los valores de datos o sumas que deben ser constantes, como las ventas por cliente por mes. Si en un mes posterior, el valor de las ventas por cliente por cambios mes para un cliente determinado durante un mes anterior, los datos subyacentes puede estar dañado.

  • Inconsistencias Ortografía: El nombre de un cliente se escribe varias maneras diferentes, por ejemplo.

¿Qué haces cuando te encuentras problemas? Usted puede tratar de una de las siguientes técnicas:

  • Aplicar una regla de corrección automática. Cuando usted encuentra una ortografía inconsistente, por ejemplo, hacer una búsqueda en una tabla maestra de correcciones ortográficas anteriores y automáticamente hacer el cambio en los datos.

  • Ponga a un lado el récord de un miembro del equipo para analizar y corregir después. En este caso, es posible hacer la parte humana de la garantía de la calidad en relación con la corrección automática.

    Por ejemplo, se hacen correcciones automáticas, si es posible, y un informe acerca de otros problemas se ponen en un archivo separado y se envían a la persona de control de calidad. Cuando la persona de control de calidad hace que todas las correcciones manuales, combinar las correcciones de nuevo en los datos que han pasado por el proceso de control de calidad automático.

  • Enfríe sus chorros. Si usted descubre suficientes problemas que son graves o que requieran una cantidad indeterminada de la investigación, considere detener todo el proceso hasta después de encontrar y solucionar el problema.

Puede hacer que el proceso de control de calidad mucho más eficiente, y mucho menos problemático, si se realiza un análisis de los sistemas de código completo. Si usted tiene una idea bastante buena sobre qué tipos de problemas de datos que puede encontrar en cada fuente de datos, puede reprogramar su proceso de control de calidad para detectar y (con suerte) corregir esos problemas antes de continuar.

Históricamente, las organizaciones tratan el proceso de control de calidad de almacenamiento de datos como un flujo unidireccional. Los problemas se corrigen antes de los datos se mueven más en el flujo de los procesos de middleware, pero nunca se corrige en las fuentes de datos. La mayoría de los nuevos almacenes de datos tienen incorporado un circuito de retroalimentación del proceso de control de calidad que corrige los problemas de calidad de datos en los datos de origen.

Aseguramiento de la calidad de datos: parte II

Tras la finalización de los procesos de transformación, los datos deben QA'd - de nuevo. Nunca se sabe qué tipo de error o discrepancia el proceso de transformación podría haber introducido en los datos. Después se han producido cambios, todos los procesos de control de calidad anteriores ya no son válidas.

Ejecute los datos transformados, consolidadas por el mismo tipo de medidas de control de calidad discutidos aquí. Aunque es probable que no encuentre tantos errores rudimentarias (como errores o valores que están fuera del alcance de ortografía) si usted hizo un buen trabajo en su control de calidad de primer nivel, usted todavía quiere asegurarse. Además, asegúrese de que el código o scripts utilizados para la transformación de datos no causaron accidentalmente nuevos errores a colarse.

El objetivo de este control de calidad de segundo nivel es para asegurarse de que sus datos consolidado y transformado está listo para cargar en el almacén de datos - tan pronto como se produce un paso más, si es necesario.




» » » » Servicios Middleware: la garantía de calidad de los datos