Asegurar la calidad de los datos externa entrante

Al diseñar un almacén de datos y determinar qué datos externo que necesita, que acaba de realizar un pedido (similar a ordenar la ropa o una cesta de fruta de un sitio en línea). Después de empezar a recibir datos a través de una corriente, transferencia de archivos, o algún otro medio, es viento en popa - o es?

¿Qué pasa con la calidad de los datos de entrada? Es absolutamente necesario aplicar el mismo conjunto de procedimientos de control de calidad (QA) para siempre externamente datos que usted hace a los datos procedentes de sus propios sistemas internos. El hecho de que usted compra la información en el mercado libre no garantiza que los datos son sin defectos.

Aplicar los procedimientos de control de calidad para cada lote de entrada de datos siguiendo estos pasos:

  1. Averigüe si los datos de entrada tiene valores de verificación adjuntas a los archivos.

    Algunos ejemplos de los valores de comprobación son el número de registros en cada archivo, el valor total de cada columna numérica (dólares de ventas totales de todos los registros y el total de unidades vendidas de todos los registros, por ejemplo), y subconjuntos de los valores totales de las columnas (importes totales de las ventas y las unidades de estado, por ejemplo).

    Si se proporcionan los valores de verificación, deben ser conservados y utilizados como parte de los procedimientos de carga de extremo a extremo. Nadie debe actualizar oficialmente el contenido del almacén hasta que los totales de verificación de acuerdo con los cálculos que ha realizado al preparar los datos para la carga.

  2. Si no se proporcionan los valores de verificación, así lo soliciten.

    Aunque la solicitud podría tardar unos ciclos (unas pocas semanas o meses, por ejemplo) para llenar cualquier proveedor de datos interesados ​​en proporcionar un alto nivel de servicio al cliente toma este tipo de solicitud en serio y se esfuerza para que la información de control solicitado disponible.

  3. Durante sus procedimientos de carga, filtrar cada fila.

    Asegúrese de que las siguientes condiciones son verdaderas:

  1. Llaves (identificadores únicos para cada registro) son correctos a través de toda la información. Por ejemplo, si cada registro en el grupo SalesMasterRecord de datos debe tener exactamente 12 registros relacionados en SalesDetailRecord (uno para cada mes), asegúrese de que todos los registros de detalles están presentes mediante la comparación de los valores clave de registro.

  2. Los rangos de valores son correctos. Las ventas de productos al mes, por ejemplo, deben estar dentro de los límites razonables para ese tipo de producto (aviones son diferentes de tornillos, por ejemplo).

  3. Missing campos de información (un probable - casi inevitable - ocurrencia con prestados externamente datos) no distorsionar el significado de los datos entrantes.

    Por ejemplo, aunque la ausencia de piezas complementarias de datos (definidos de acuerdo a las reglas de negocio para su industria u organización específica) podría no ser demasiado seria un problema, si la mitad de los registros de entrada tienen un espacio vacío donde UnitsSold, TotalSalesPrice, o algún otro Tipo de crítica de la información debe ser, el valor de los datos es cuestionable en el mejor.

  4. Especialmente en las primeras etapas de la adquisición de datos externos (los primeros tres o cuatro meses, por ejemplo), utilizar sus herramientas de análisis, como se describe en el capítulo 10, para llevar a cabo el análisis de calidad de los datos antes de que sus usuarios utilizan las mismas herramientas para llevar a cabo el análisis de negocio.

    Búsqueda de rarezas, anomalías desconcertantes resultados, inconsistencias, aparentes paradojas, y cualquier otra cosa que sólo se ve raro. A continuación, profundizar en las raíces de los datos para comprobar el origen de la rareza.

    Recuerde que usted está probablemente se trata de muchos millones de filas de datos entrante: Además de no poder comprobar personalmente cada hilera, es posible que tenga la configuración de su filtrado y control de calidad comprobar criterios para cada condición posible dificultad.

    Cualquier persona que ha hecho algo con los datos fuente proporcionado externamente ha llegado a través de todo tipo de inconsistencias extraños y datos faltantes en la información entrante. Al poner en el lugar de los usuarios y el uso de las mismas herramientas que utilizan, es probable que pueda descubrir un par de cosas que usted puede corregir, por lo que su almacén de datos mucho mejor tienda de valiosa información de negocios.




» » » » Asegurar la calidad de los datos externa entrante