Características de un gran marco de análisis de datos

A pesar de que los nuevos conjuntos de herramientas siguen estando disponibles para ayudar a administrar y analizar su marco de datos grande con mayor eficacia, no puede ser capaz de obtener lo que necesita. Además, una serie de tecnologías puede apoyar el análisis de datos grandes y requisitos tales como la disponibilidad, escalabilidad y alto rendimiento. Algunos de estos incluyen los electrodomésticos grandes de datos, bases de datos en columnas, bases de datos en memoria, bases de datos no relacionales, y motores de procesamiento masivamente paralelo.

Así que, ¿cuáles son los usuarios de negocios que buscan cuando se trata de análisis de datos grande? La respuesta a esa pregunta depende del tipo de problema de negocio que están tratando de resolver. Algunas consideraciones importantes que usted seleccione un gran marco de análisis de datos de la aplicación se incluyen las siguientes:

  • Soporte para múltiples tipos de datos: Muchas organizaciones están incorporando, o esperan incorporar, todos los tipos de datos como parte de sus despliegues de grandes volúmenes de datos, incluyendo datos estructurados, semi-estructurados y no estructurados.

  • Maneje el procesamiento por lotes y / o flujos de datos en tiempo real: Orientación a la acción es un producto de análisis de flujos de datos en tiempo real, mientras que la orientación decisión puede ser adecuadamente servida por el procesamiento por lotes. Algunos usuarios requerirán tanto, a medida que evolucionan para incluir diferentes formas de análisis.

  • Utilice lo que ya existe en su entorno: Para obtener el contexto adecuado, puede ser importante para aprovechar los datos y algoritmos existentes en el gran marco de análisis de datos.

  • Apoyar NoSQL y otras nuevas formas de acceder a los datos: Si bien las organizaciones continuarán utilizando SQL, muchos también están mirando nuevas formas de acceso a datos para apoyar los tiempos de respuesta más rápidos o tiempos más rápidos a la decisión.

  • Superar la baja latencia: Si usted va a estar tratando con alta velocidad de datos, usted va a necesitar un marco que puede apoyar los requisitos de velocidad y rendimiento.

  • Proporcionar almacenamiento barato: Gran datos significa potencialmente un montón de almacenamiento - en función de la cantidad de datos que desea procesar y / o mantener.

  • Integración con las implementaciones de nube: La nube puede proporcionar almacenamiento y calcular la capacidad bajo demanda. Cada vez más empresas están usando la nube como un análisis ". Sandbox " Cada vez más, la nube se está convirtiendo en un modelo de despliegue importante integrar los sistemas existentes con implementaciones de nubes en un modelo híbrido.

Si bien todas estas características son importantes, el valor percibido y real de la creación de aplicaciones de un marco de tiempo más rápido de la implementación. Con todas estas capacidades en mente, considere la posibilidad de un marco de aplicación de análisis de grandes datos de una empresa llamada Continuidad.

El AppFabric La continuidad es un marco de apoyo al desarrollo y despliegue de aplicaciones de datos grandes. El AppFabric en sí es un conjunto de tecnologías diseñadas específicamente para abstraer los caprichos de las tecnologías de datos grandes de bajo nivel. El generador de aplicaciones es un Eclipse plug-in que permite al desarrollador para construir, probar y depurar a nivel local y en un entorno familiar.

Capacidades AppFabric incluyen los siguientes:

  • De soporte de flujo para el análisis en tiempo real y la reacción

  • API unificada, lo que elimina la necesidad de escribir a las infraestructuras de datos grandes

  • Interfaces de consulta para obtener resultados simples y soporte para procesadores de consulta enchufables

  • Los conjuntos de datos que representan datos consultables y mesas accesibles desde la API unificada

  • Lectura y escritura de datos independientes de formatos de entrada o de salida o específicos de los componentes subyacentes

  • Procesamiento de eventos basado en transacciones

  • Despliegue Multimodal a un solo nodo o la nube

Este enfoque va a ganar fuerza para el desarrollo de aplicaciones de datos grande sobre todo debido a la gran cantidad de herramientas y tecnologías necesarias para crear un entorno de datos grande.

La falta de colaboración puede ser costoso en muchas maneras. Las grandes organizaciones pueden beneficiarse de las herramientas que impulsan colaboraciones. Muy a menudo la gente que hace un trabajo similar no son conscientes de los esfuerzos de cada uno que conduce a duplicar el trabajo.

Otro buen ejemplo de un marco de aplicación es OpenChorus. Además de rápido desarrollo de grandes aplicaciones de análisis de datos, sino que también apoya la colaboración y ofrece muchas otras características importantes para los desarrolladores de software, como la integración de herramientas, control de versiones, y la gestión de la configuración.

Abrir Coro es un proyecto mantenido por EMC Corporation y está disponible bajo la licencia Apache 2.0. EMC también produce y es compatible con una versión comercial de Coro. Tanto Abrir Coro y Coro tienen redes asociadas vibrantes, así como un amplio conjunto de contribuyentes individuales y corporativos.

Abrir Chorus es un marco genérico. Su característica principal es la capacidad de crear una comunidad " hub " para compartir las fuentes grandes de datos, ideas, técnicas de análisis y visualizaciones. Abrir Chorus ofrece lo siguiente:

  • Repositorio de herramientas de análisis, artefactos y técnicas con versiones completa, control de cambios, y archivo

  • Áreas de trabajo y entornos limitados que son auto-aprovisionamiento y fácilmente mantenida por miembros de la comunidad

  • Las visualizaciones, incluyendo mapas de calor, series de tiempo, histogramas, etc.

  • Federados de búsqueda de cualquiera y de todos los activos de datos, incluyendo Hadoop, metadatos, repositorios SQL y comentarios

  • Colaboración a través de funciones de redes sociales como alentadores descubrimiento, el intercambio y la lluvia de ideas

  • Extensibilidad para la integración de componentes y tecnologías de terceros




» » » » Características de un gran marco de análisis de datos