Cerdo latino en los programas de cerdo de Hadoop

Cerdo latín es el idioma para programas de cerdo. Cerdo traduce el guión Pig Latin en puestos de trabajo MapReduce que pueda ser ejecutado dentro del clúster Hadoop. Si viene con cerdo América, el equipo de desarrollo sigue tres principios fundamentales de diseño:

  • Mantenlo simple. Pig Latin proporciona un método simplificado para interactuar con Java MapReduce. Es una abstracción, es decir, que simplifica la creación de programas paralelos en el clúster Hadoop para los flujos de datos y análisis. Las tareas complejas pueden requerir una serie de transformaciones de datos interrelacionadas - tales series se codifican como flujo de datos de secuencias.

    Escribir transformación de datos y fluye como scripts en lugar de programas Java MapReduce Pig Latina hace que estos programas más fáciles de escribir, entender y mantener porque a) no tiene que escribir el trabajo en Java, b) no tienes que pensar en términos de MapReduce, yc) no es necesario para llegar a código personalizado para soportar tipos de datos ricos.

    Pig Latin proporciona un lenguaje más simple para explotar el clúster Hadoop, por lo que es más fácil para más personas a aprovechar el poder de Hadoop y ser productivos más pronto.

  • Que sea inteligente. Usted puede recordar que el latín de cerdo compilador hace el trabajo de la transformación de un programa de Latín de cerdo en una serie de puestos de trabajo de Java MapReduce. El truco está en asegurarse de que el compilador puede optimizar la ejecución de estos trabajos de Java MapReduce de forma automática, lo que permite al usuario centrarse en la semántica y no en cómo optimizar y acceder a los datos.

    Para ti Tipos SQL por ahí, esta discusión sonará familiar. SQL se configura como una consulta declarativa que se utiliza para acceder a los datos estructurados almacenados en un RDBMS. El motor RDBMS traduce primero la consulta a un método de acceso a datos y luego mira a las estadísticas y genera una serie de enfoques de acceso a datos. El optimizador basado en costos elige el método más eficiente para su ejecución.

  • No limite el desarrollo. Hacer cerdo extensible para que los desarrolladores pueden añadir funciones para hacer frente a sus problemas de negocios particulares.

Almacenes de datos RDBMS tradicionales hacen uso de la pauta de tratamiento de datos ETL, donde se edatos XTRACT de fuentes externas, transform para que se ajuste a sus necesidades operativas, y luego load en el objetivo final, si se trata de una tienda operativa de datos, un almacén de datos, u otra variante de la base de datos.

Sin embargo, con los grandes datos, normalmente se desea reducir la cantidad de datos que ha moverse, por lo que terminan con lo que el procesamiento de los datos en sí.

El idioma para los flujos de datos de cerdo, por lo tanto, tiene un pase en el enfoque de ETL de edad, y se va con ELT en su lugar: EXTRACT los datos de sus diversas fuentes, lOAD en HDFS, y luego transform según sea necesario para preparar los datos para su posterior análisis.




» » » » Cerdo latino en los programas de cerdo de Hadoop