Cómo priorizar gran calidad de los datos

Conseguir la perspectiva correcta sobre calidad de los datos puede ser muy difícil en el mundo de los grandes datos. Con la mayoría de las fuentes de datos grandes, es necesario asumir que se está trabajando con datos que no está limpio. De hecho, la gran abundancia de datos aparentemente aleatorios y desconectados en las corrientes de datos de medios de comunicación social es una de las cosas que hacen que sea tan útil para las empresas.

Se empieza por buscar petabytes de datos sin saber lo que puede encontrar después de empezar a buscar patrones en los datos. Tienes que aceptar el hecho de que exista una gran cantidad de ruido en los datos. Es sólo por la búsqueda y comparación de patrones que usted será capaz de encontrar algunas chispas de verdad en medio de algunos datos muy sucios.

Por supuesto, algunas fuentes de datos grandes, como los datos de las etiquetas RFID o sensores tienen reglas establecidas mejor que los datos de medios sociales. Datos de los sensores deben estar razonablemente limpia, aunque usted puede esperar encontrar algunos errores. Siempre es su responsabilidad al analizar cantidades masivas de datos para planificar para el nivel de calidad de los datos. Usted debe seguir un enfoque en dos fases para la calidad de datos:

Fase 1: Busque patrones en grandes volúmenes de datos sin preocuparse por la calidad de los datos.Fase 2: Después de localizar a sus patrones y establecer resultados que son importantes para el negocio, aplicar los mismos estándares de calidad de los datos que se aplican a las fuentes de datos tradicionales. Usted quiere evitar la recogida y gestión de grandes datos que no son importantes para el negocio y la voluntad de otros elementos de datos potencialmente corruptos en Hadoop u otras plataformas de datos grandes.

Al comenzar a incorporar los resultados de su análisis de grandes datos en su proceso de negocio, reconocer que los datos de alta calidad es esencial para una empresa tomar decisiones de negocios. Esto es cierto para grandes volúmenes de datos, así como datos tradicionales.

La calidad de los datos se refiere a las características acerca de los datos, incluyendo la consistencia, exactitud, fiabilidad, integridad, oportunidad, razonabilidad y validez. Software de calidad de datos se asegura de que los elementos de datos se representan de la misma manera a través de diferentes tiendas o sistemas de datos para aumentar la consistencia de los datos.

Por ejemplo, un almacén de datos puede utilizar dos líneas de dirección de un cliente y otro almacén de datos puede utilizar una sola línea. Esta diferencia en la forma en que los datos se representa puede resultar en información inexacta sobre los clientes, tales como un cliente se identifica como dos clientes diferentes.

Una corporación puede utilizar docenas de variaciones de su nombre de la empresa cuando compra productos. Software de calidad de datos se puede utilizar para identificar todas las variantes del nombre de la empresa en sus diferentes almacenes de datos y asegurarse de que sabe todo lo que las compras de este cliente de su negocio.

Este proceso se llama proporcionando una visión única de cliente o producto. Software de calidad de datos coincide con los datos entre diferentes sistemas y se limpia o elimina los datos redundantes. El proceso de calidad de datos proporciona el negocio con la información que es más fácil de usar, interpretar y entender.

Datos herramientas de perfilado se utilizan en el proceso de calidad de datos para ayudar a entender el contenido, la estructura y condición de sus datos. Recogen información sobre las características de los datos en una base de datos u otro almacén de datos para comenzar el proceso de convertir los datos en una forma más de confianza. Las herramientas analizan los datos para identificar los errores e inconsistencias.

Ellos pueden hacer ajustes para estos problemas y corregir errores. Las herramientas de verificación de los valores aceptables, patrones y rangos y ayudan a identificar los datos que se solapan. El proceso de datos de perfiles, por ejemplo, comprueba si se espera que los datos para ser alfa o numérico. Las herramientas también comprobar las dependencias o para ver cómo los datos se refiere a los datos de otras bases de datos.

Herramientas de datos de perfiles de datos grandes tienen una función similar a las herramientas de datos de perfiles de datos tradicionales. Herramientas de datos de perfiles para Hadoop le proporcionará información importante acerca de los datos en racimos de Hadoop. Estas herramientas se pueden utilizar para buscar coincidencias y quitar duplicaciones. Como resultado, puede asegurarse de que sus datos grande es consistente. Herramientas Hadoop como HiveQL y Pig Latin se pueden utilizar para el proceso de transformación.




» » » » Cómo priorizar gran calidad de los datos