Cerdo Hadoop y latín de cerdo para los grandes datos
El poder y la flexibilidad de Hadoop para grandes datos son inmediatamente visibles para los desarrolladores de software principalmente porque el ecosistema Hadoop fue construido por los desarrolladores, para los desarrolladores. Sin embargo, no todo el mundo es un desarrollador de software. Cerdo fue diseñado para hacer Hadoop más accesible y utilizable por nondevelopers.
Cerdo es un entorno interactivo, o basado en la escritura, ejecución apoyar Pig Latin, un lenguaje utilizado para expresar los flujos de datos. El lenguaje Pig Latin soporta la carga y procesamiento de los datos de entrada con una serie de operadores que transforman los datos de entrada y producen el resultado deseado.
El entorno de ejecución de cerdo tiene dos modos:
Modo local: Todos los scripts se ejecutan en una sola máquina. No se requieren Hadoop MapReduce y HDFS.
Hadoop: También llamado modo de MapReduce, todos los scripts se ejecutan en un clúster Hadoop dado.
Bajo las sábanas, cerdo crea un conjunto de mapa y reducir puestos de trabajo. El usuario es absuelto de las preocupaciones de la escritura de código, compilar, envasado, presentación, y la recuperación de los resultados. En muchos aspectos, cerdo es análoga a SQL en el mundo RDBMS.
El lenguaje Pig Latin ofrece una manera abstracta para obtener respuestas de los grandes datos, centrándose en los datos y no la estructura de un programa de software a medida. Cerdo hace prototipos muy simple. Por ejemplo, puede ejecutar un script de cerdo en una pequeña representación de su entorno de grandes datos para asegurarse de que está obteniendo los resultados deseados antes de comprometerse con el procesamiento de todos los datos.
Programas de cerdo se pueden ejecutar de tres maneras diferentes, todos ellos compatibles con el modo local y Hadoop:
Guión: Simplemente un archivo que contiene comandos Pig Latina, identificado por el .cerdo sufijo (por ejemplo, file.pig o myscript.pig). Los comandos son interpretados por cerdo y ejecutados en orden secuencial.
Ronco: Ronco es un intérprete de comandos. Puede escribir latín de cerdo en la línea de comandos gruñido y ronco ejecutará el comando en su nombre. Esto es muy útil para la creación de prototipos y " lo que si " escenarios.
Incrustado: Programas de cerdo se pueden ejecutar como parte de un programa Java.
Latín de cerdo tiene una sintaxis muy rico. Es compatible con los operadores de las siguientes operaciones:
Carga y almacenamiento de datos
Datos Streaming
Filtrado de datos
Agrupar y unir los datos
Ordenación de datos
La combinación y los datos de división
Latín de cerdo también es compatible con una amplia variedad de tipos, expresiones, funciones, operadores de diagnóstico, macros y comandos del sistema de archivos.
Para obtener más ejemplos, visite el sitio web de cerdo dentro Apache.com.