Big data para los maniquíes

categoría Computadoras y software / Big Data

Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres características:

Conteúdo

La comprensión de datos no estructurados
El papel de los datos operacionales tradicionales en el entorno de datos grande
Fundamentos de infraestructura big data
La gestión de grandes volúmenes de datos con hadoop: hdfs y mapreduce
Sentar las bases de su estrategia de big data

Volumen: ¿Cuántos datos
Velocity: ¿Cómo se procesa datos rápida
Variedad: Los diversos tipos de datos

Si bien es conveniente simplificar los grandes datos en los tres Vs, puede ser engañosa y demasiado simplista. Por ejemplo, puede ser la gestión de una cantidad relativamente pequeña de datos complejos, muy dispares, o es posible que se procesa un gran volumen de datos muy simples. Esos datos simples pueden ser todo estructurada o no estructurada todo.

Aún más importante es la cuarta V, veracidad. ¿Qué tan precisa es que los datos para predecir el valor del negocio? ¿Los resultados de un análisis de datos grandes en realidad tienen sentido? Los datos deben ser capaces de ser verificada basada tanto en la precisión y el contexto. Un negocio innovador puede querer ser capaz de analizar grandes cantidades de datos en tiempo real para evaluar rápidamente el valor de ese cliente y el potencial de proporcionar ofertas adicionales a ese cliente. Es necesario identificar la cantidad y tipos de datos que pueden ser analizados en tiempo real para impactar los resultados de negocio derecha.

Big Data incorpora todas las variedades de datos, incluyendo datos estructurados y no estructurados de datos de correos electrónicos, redes sociales, flujos de texto, y así sucesivamente. Este tipo de gestión de datos obliga a las empresas a aprovechar tanto sus datos estructurados y no estructurados.

La comprensión de datos no estructurados

Los datos no estructurados es diferente de datos estructurados en que su estructura es impredecible. Ejemplos de datos no estructurados incluyen documentos, correos electrónicos, blogs, imágenes digitales, vídeos e imágenes de satélite. También incluye algunos datos generados por máquinas o sensores. De hecho, los datos no estructurados representa la mayor parte de los datos que está en los locales de su empresa, así como externo a su empresa en fuentes privadas y públicas en línea como Twitter y Facebook.

En el pasado, la mayoría de las empresas no fueron capaces de capturar o almacenar esta gran cantidad de datos. Era simplemente demasiado caro o demasiado abrumador. Incluso si las empresas fueron capaces de capturar los datos, no tenían las herramientas para analizar fácilmente los datos y utilizar los resultados para tomar decisiones. Muy pocas herramientas podrían dar sentido a estas grandes cantidades de datos. Las herramientas que existían eran complejos de usar y no produjeron resultados en un plazo razonable.

Al final, los que realmente quería ir al enorme esfuerzo de analizar estos datos se vieron obligados a trabajar con instantáneas de datos. Esto tiene el efecto indeseable de desaparecidos eventos importantes debido a que no estaban en una instantánea en particular.

Un enfoque que se está convirtiendo cada vez más valorado como una forma de obtener valor de negocio a partir de datos no estructurados es análisis de texto, el proceso de análisis de texto no estructurado, la extracción de información relevante, y transformarla en información estructurada que puede ser aprovechada de diversas maneras. Los procesos de análisis y extracción de tomar ventaja de las técnicas que se originaron en la lingüística computacional, estadística y otras disciplinas de la informática.

El papel de los datos operacionales tradicionales en el entorno de datos grande

Sabiendo lo que se almacenan los datos y donde se almacenan son bloques fundamentales de construcción en su aplicación de datos grande. Es poco probable que usted utiliza RDBMS para el núcleo de la aplicación, pero es muy probable que usted tendrá que confiar en los datos almacenados en los RDBMS para crear el más alto nivel de valor para el negocio con grandes volúmenes de datos.

La mayoría de las empresas grandes y pequeñas, probablemente almacenar la mayoría de su información operativa importante en los sistemas de gestión de bases de datos relacionales (RDBMS), que se basa en una o más relaciones y representada por tablas. Estas tablas se definen por la forma en que los datos se stored.The datos se almacena en objetos de base denominadas mesas - organizados en filas y columnas. RDBMS seguir un enfoque coherente en la forma en que los datos se almacenan y recuperan.

Para obtener el valor de la mayoría de negocios de su análisis en tiempo real de los datos no estructurados, es necesario comprender que los datos en el contexto de los datos históricos sobre clientes, productos, transacciones y operaciones. En otras palabras, se necesita integrar sus datos no estructurados con tus datos operativos tradicionales.

Fundamentos de Infraestructura Big Data

Big Data es todo acerca de la alta velocidad, grandes volúmenes, y una amplia variedad de datos, por lo que la infraestructura física, literalmente "hacer o deshacer" la implementación. La mayoría de las implementaciones de datos grandes deben ser altamente disponible, por lo que las redes, servidores y almacenamiento físico deben ser resistentes y redundante.

Resistencia y redundancia están interrelacionados. Una infraestructura, o un sistema, es resistente a la insuficiencia o cambia cuando suficientes recursos redundantes están en su lugar listo para entrar en acción. Resiliencia ayuda a eliminar los puntos únicos de fallo en su infraestructura. Por ejemplo, si sólo existe una conexión de red entre su empresa y la Internet, usted no tiene la redundancia de la red y la infraestructura no es elástica con respecto a una caída de la red.

En los grandes centros de datos con los requisitos de continuidad del negocio, la mayoría de la redundancia es en su lugar y se puede aprovechar para crear un entorno de datos grande. En las nuevas implementaciones, los diseñadores tienen la responsabilidad de asignar el despliegue a las necesidades de la empresa en base a los costos y el rendimiento.

La gestión de grandes volúmenes de datos con Hadoop: HDFS y MapReduce

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación distribuida.

El sistema de archivos distribuido Hadoop (HDFS) fue desarrollado para permitir a las empresas a gestionar más fácilmente grandes volúmenes de datos de una manera simple y pragmática. Hadoop permite grandes problemas que se descomponen en elementos más pequeños por lo que el análisis se puede realizar de forma rápida y rentable. HDFS es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande.

HDFS no es el destino final de los archivos. Más bien es un "servicio" de datos que ofrece un conjunto único de capacidades necesarias cuando los volúmenes y la velocidad de datos son altas.

MapReduce es un marco de software que permite a los desarrolladores escribir programas que pueden procesar grandes cantidades de datos no estructurados en paralelo a través de un grupo distribuido de procesadores. MapReduce fue diseñada por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en el modo por lotes.

El "mapa" componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas de una manera que equilibra la carga y gestiona la recuperación de fallos. Después de que se complete la computación distribuida, otra función llamada "reducir" agrega todos los elementos de nuevo juntos para proporcionar un resultado. Un ejemplo de uso de MapReduce sería determinar el número de páginas de un libro están escritos en cada uno de los 50 idiomas diferentes.

Sentar las bases de su estrategia de Big Data

Las empresas están nadando en grandes volúmenes de datos. El problema es que a menudo no saben cómo utilizar pragmáticamente que los datos sean capaces de predecir el futuro, ejecutar procesos de negocios importantes, o simplemente obtener nuevos conocimientos. El objetivo de su estrategia de datos grande y el plan debe ser encontrar una manera pragmática de aprovechar los datos para los resultados de negocio más predecibles.

Comience su estrategia de datos grande por embarcarse en un proceso de descubrimiento. Usted necesita tener una idea de lo que los datos que ya tiene, dónde está, que posee y controla, y la forma en que se utiliza actualmente. Por ejemplo, ¿cuáles son las fuentes de datos de terceros que su empresa se basa en? Este proceso le puede dar un montón de puntos de vista:

Usted puede determinar el número de fuentes de datos que tiene y la que existe mucha superposición.
Puede identificar existen lagunas en el conocimiento sobre esas fuentes de datos.
Usted podría descubrir que usted tiene un montón de datos duplicados en un área del negocio y casi no hay datos en otra área.
Usted puede cerciorarse de que usted es dependiente de los datos de terceros que no es tan preciso como debe ser.

Pase el tiempo que necesita para hacer este proceso de descubrimiento, ya que será la base para la planificación y ejecución de su estrategia de datos grande.

Sobre el autor

Análisis de datos grandes y el almacén de datos

Va a encontrar valor en traer las capacidades del almacén de datos y el entorno de datos grande juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.En primer lugar, es…

Identificar los datos que necesita para su big data

Hacer un balance de el tipo de datos que está tratando con su proyecto de datos grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.Mediante el…

Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos

La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las…

Asuntos de desempeño en la gestión de arquitectura de datos grande

Su gran arquitectura de datos también tiene que actuar en concierto con infraestructura de apoyo de su organización. Por ejemplo, usted podría estar interesado en el funcionamiento de los modelos para determinar si es seguro para perforar en…

La evolución de los modelos de despliegue en la era de los grandes datos

Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…

Los fundamentos de la gran integración de datos

Los elementos fundamentales de la plataforma de datos grande gestionar los datos de nuevas maneras, en comparación con la base de datos relacional tradicional. Esto es debido a la necesidad de contar con la escalabilidad y alto rendimiento…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Mejores prácticas para la gran integración de datos

Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…

Gran web de datos y gestión de contenidos

Gran datos requiere un enfoque coherente de web y gestión de contenidos. No es ningún secreto que la mayoría de los datos disponibles en el mundo de hoy no es estructurado. Paradójicamente, las empresas han centrado sus inversiones en los…

Definición de los grandes datos: el volumen, la velocidad, y la variedad

Gestión de datos empresariales y datos grandes

Gestión de datos empresariales (EDM) es un proceso importante en las grandes datos para la comprensión y el control de la economía de los datos en su empresa u organización. Aunque EDM no es necesaria para los grandes datos, la correcta…

Sentar las bases para su estrategia de datos grande

maniqui-es.com » Computadoras y software » Big Data » Big data para los maniquíes