Los factores que aumentan la escala de análisis estadístico en hadoop

La razón la gente degustar sus datos antes de ejecutar el análisis estadístico en Hadoop es que este tipo de análisis a menudo requiere importantes recursos de computación. Esto no es sólo acerca de los volúmenes de datos: hay cinco factores principales que influyen en la escala de análisis estadístico:

Esto de fácil, pero tenemos que mencionar: el volumen de datos en el que se va a realizar el análisis definitivamente determina la escala del análisis.
El número de transformaciones necesarias en el conjunto de datos antes de aplicar modelos estadísticos es sin duda un factor.
El número de correlaciones por pares que necesita para calcular juega un papel.
El grado de complejidad de los cálculos estadísticos que se aplicará es un factor.
El número de modelos estadísticos que se aplicará al conjunto de datos juega un papel importante.

Hadoop ofrece una manera de salir de este dilema, proporcionando una plataforma para realizar cálculos de procesamiento masivamente paralelo en los datos en Hadoop.

Al hacerlo, es capaz de voltear los datos analíticos Flow en lugar de mover los datos desde su repositorio para el servidor de análisis, Hadoop ofrece analytics directamente a los datos. Más específicamente, HDFS le permite almacenar sus montañas de datos y luego traer el cálculo (en forma de tareas MapReduce) a los nodos esclavos.

El reto común que supone pasar de los sistemas tradicionales multi-proceso simétrico estadísticos (SMP) a la arquitectura Hadoop es la localidad de los datos. En las plataformas SMP tradicionales, múltiples procesadores comparten el acceso a un único recurso de memoria principal.

En Hadoop, HDFS replica particiones de datos a través de múltiples nodos y máquinas. Además, los algoritmos estadísticos que fueron diseñados para el procesamiento de datos en memoria ahora deben adaptarse a los conjuntos de datos que abarquen varios nodos / bastidores y no podía esperar para caber en un solo bloque de la memoria.

Sobre el autor

Procesamiento gráfico en hadoop

Uno de los más emocionantes tecnologías NoSQL emergentes implica el almacenamiento y procesamiento de datos del gráfico. Se podría pensar que esta declaración es noticia vieja porque los científicos informáticos han desarrollado técnicas de…

Hadoop como un motor de pre-procesamiento de datos

Uno de los primeros casos de uso para Hadoop en la empresa era como un motor de transformación programática utilizada para los datos preprocess con destino a un almacén de datos. Esencialmente, este caso de uso aprovecha la potencia del…

Hadoop distribuido sistema de archivos (HDFS) federación

La solución a la expansión de grupos de Hadoop indefinidamente es federar el NameNode. Antes de Hadoop 2 entró en escena, racimos de Hadoop tuvieron que vivir con el hecho de que NameNode coloca límites al grado en que podrían escalar. Pocos…

Integración Hadoop con r

En un principio, los grandes datos y R no eran amigos naturales. R programación requiere que todos los objetos pueden cargar en la memoria principal de una sola máquina. Las limitaciones de esta arquitectura se dieron cuenta rápidamente cuando…

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.Apache Hive es en capas en la parte superior del sistema de…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

R en Hadoop y el idioma r

La disciplina de aprendizaje máquina tiene un catálogo rico y extenso de técnicas. Mahout trae una gama de herramientas estadísticas y algoritmos a la mesa, pero sólo capta una fracción de esas técnicas y algoritmos, ya que la tarea de…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Ejecución de modelos estadísticos en MapReduce de Hadoop

La conversión de modelos estadísticos para funcionar en paralelo es una tarea difícil. En el paradigma tradicional para la programación en paralelo, de acceso a memoria se regula mediante el uso de hilos - subprocesos creados por el sistema…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Los factores que aumentan la escala de análisis estadístico en hadoop