Conceptos básicos de computación distribuida para grandes datos

Si su empresa está considerando un proyecto de datos grande, es importante que usted entienda algunos conceptos básicos de computación distribuida primero. No hay un modelo de computación distribuida solo porque los recursos informáticos se pueden distribuir en muchos sentidos.

Conteúdo

¿por qué se necesita la computación distribuida para los datos grande
La economía cambiantes de la informática y las grandes datos
El problema de la latencia para datos de gran
La demanda de datos de big reúne soluciones

Por ejemplo, puede distribuir un conjunto de programas en el mismo servidor físico y el uso de servicios de mensajería para que puedan comunicarse y transmitir información. También es posible tener muchos sistemas diferentes o servidores, cada uno con su propia memoria, que pueden trabajar juntos para resolver un problema.

¿Por qué se necesita la computación distribuida para los datos grande

No todos los problemas requieren Distributed Computing. Si una gran limitación de tiempo no existe, el procesamiento complejo puede hacer a través de un servicio especializado de forma remota. Cuando las empresas tenían que hacer análisis de datos complejos, sería mover datos a un servicio o entidad externa, donde estaban disponibles para el procesamiento de una gran cantidad de recursos de repuesto.

No es que las empresas querían esperar a obtener los resultados que necesitábamos, simplemente no era económicamente viable para comprar suficientes recursos informáticos para manejar estos requisitos emergentes. En muchas situaciones, las organizaciones podrían capturar sólo selecciones de datos en lugar de tratar de capturar todos los datos debido a los costos. Los analistas querido todos los datos, pero tuvo que conformarse con las instantáneas, con la esperanza de capturar los datos correctos en el momento adecuado.

Avances de hardware y software clave revolucionaron la industria de gestión de datos. En primer lugar, la innovación y la demanda aumentó el poder y la disminución del precio del hardware. El nuevo software se supo que entiende cómo tomar ventaja de este hardware mediante la automatización de procesos como el balanceo de carga y optimización a través de un enorme grupo de nodos.

El software incluido normas incorporadas que entienden que ciertas cargas de trabajo requieren un cierto nivel de rendimiento. El software tratado todos los nodos como si fueran simplemente un gran charco de computación, almacenamiento, redes y activos, y se trasladaron los procesos a otro nodo sin interrupción si un nodo falla, utilizando la tecnología de virtualización.

La economía cambiantes de la informática y las grandes datos

Avance rápido y muchas cosas han cambiado. En los últimos años, el costo de adquirir los recursos informáticos y de almacenamiento ha disminuido dramáticamente. Con la ayuda de la virtualización, los servidores de los productos básicos que podrían ser agrupados y cuchillas que podrían conectarse en red en un bastidor cambiaron la economía de la informática. Este cambio coincidió con la innovación en soluciones de automatización de software que mejoraron dramáticamente la capacidad de gestión de estos sistemas.

La capacidad de apalancamiento computación distribuida y las técnicas de procesamiento paralelo transformó radicalmente el paisaje y reducir drásticamente la latencia. Hay casos especiales, como el comercio de alta frecuencia (HFT), en los que baja latencia sólo puede lograrse por los servidores localizar físicamente en un solo lugar.

El problema de la latencia para datos de gran

Uno de los problemas perennes con la gestión de datos - especialmente grandes cantidades de datos - ha sido el impacto de la latencia. Estado latente es el retardo dentro de un sistema basado en los retrasos en la ejecución de una tarea. La latencia es un problema en todos los aspectos de la informática, incluyendo comunicaciones, gestión de datos, el rendimiento del sistema, y más.

Si alguna vez ha usado un teléfono inalámbrico, que ha experimentado de primera mano la latencia. Es la demora en las transmisiones entre usted y su interlocutor. A veces, la latencia tiene poco impacto en la satisfacción del cliente, por ejemplo, si las empresas tienen que analizar los resultados de detrás de las escenas para planificar una nueva versión del producto. Esto probablemente no requiere respuesta inmediata o acceso.

Sin embargo, cuanto más cerca que la respuesta es un cliente en el momento de la decisión, más que las cuestiones de latencia.

La computación distribuida y las técnicas de procesamiento paralelo puede hacer una diferencia significativa en la latencia experimentada por los clientes, proveedores y socios. Muchas aplicaciones de datos grandes dependen de baja latencia debido a los requisitos de datos grandes para la velocidad y el volumen y la variedad de los datos.

Puede que no sea posible construir una aplicación de datos grande en un entorno de alta latencia si se necesita un alto rendimiento. La necesidad de verificar los datos en tiempo casi real también puede verse afectado por la latencia. Cuando se trata de datos en tiempo real, un alto nivel de latencia significa la diferencia entre el éxito y el fracaso.

La demanda de datos de Big reúne soluciones

El crecimiento de Internet como plataforma para todo, desde el comercio a la medicina transformó la demanda de una nueva generación de gestión de datos. A finales de 1990, las empresas del motor y de Internet como Google, Yahoo !, y Amazon.com han podido ampliar sus modelos de negocio, aprovechando el hardware de bajo costo para la informática y almacenamiento.

A continuación, estas empresas necesitan una nueva generación de tecnologías de software que les permitan rentabilizar las enormes cantidades de datos que estaban capturando de los clientes. Estas empresas no podían esperar los resultados del procesamiento analítico. Necesitaban la capacidad de procesar y analizar estos datos en tiempo casi real.

Sobre el autor

El alquiler de la infraestructura en la computación en nube

Infraestructura como Servicio (IaaS) es la entrega de equipos informáticos (servidores, tecnología de redes, almacenamiento y espacio del centro de datos) como un servicio. También se puede esperar para incluir la entrega de los sistemas…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Modelos de despliegue en la nube de datos grandes

Dos modelos clave en la nube son importantes en la discusión de los grandes datos - nubes públicas y nubes privadas. Computación en la nube es un método para proporcionar un conjunto de recursos informáticos compartidos que incluyen…

Grandes bases de virtualización de datos

La virtualización es ideal para grandes volúmenes de datos, ya que separa los recursos y servicios del entorno subyacente entrega física, que le permite crear muchos sistemas virtuales en un único sistema físico. Una de las razones principales…

¿Cómo optimizar tareas MapReduce

Aparte de la optimización del código de la aplicación actual con MapReduce para proyectos de grandes volúmenes de datos, puede utilizar algunas técnicas de optimización para mejorar la fiabilidad y el rendimiento. Se dividen en tres…

Capa de 0 de la pila de datos grande: la infraestructura física redundante

En el nivel más bajo de la pila de datos grande es la infraestructura física. Podría Su empresa ya tiene un centro de datos o las inversiones realizadas en infraestructuras físicas, por lo que vamos a querer encontrar una manera de utilizar los…

Asuntos de desempeño en la gestión de arquitectura de datos grande

Su gran arquitectura de datos también tiene que actuar en concierto con infraestructura de apoyo de su organización. Por ejemplo, usted podría estar interesado en el funcionamiento de los modelos para determinar si es seguro para perforar en…

La nube en el contexto de grandes datos

Computación en la nube es un método para proporcionar un conjunto de recursos informáticos compartidos y se está convirtiendo cada vez más importante para su iniciativa de datos grande. La nube incluye aplicaciones, computación,…

La evolución de los modelos de despliegue en la era de los grandes datos

Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…

La evolución de la computación distribuida para grandes datos

Detrás de todas las tendencias importantes en la última década, incluyendo la orientación al servicio, la computación en nube, virtualización y big data, es una tecnología fundamental llamada computación distribuida. En pocas palabras, sin…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Gran web de datos y gestión de contenidos

Gran datos requiere un enfoque coherente de web y gestión de contenidos. No es ningún secreto que la mayoría de los datos disponibles en el mundo de hoy no es estructurado. Paradójicamente, las empresas han centrado sus inversiones en los…

maniqui-es.com » Computadoras y software » Big Data » Ingeniería » Conceptos básicos de computación distribuida para grandes datos