La ciencia de datos para dummies

Tradicionalmente, Big Data

Conteúdo

La ciencia y la ingeniería de datos de datos no son los mismos
También la ciencia de datos e inteligencia de negocios no son lo mismo
En cuanto a los fundamentos de la estadística, aprendizaje automático y métodos matemáticos en ciencia de datos
Al ver la importancia de la estadística know-how
Trabajar con el agrupamiento, clasificación y métodos de aprendizaje automático
Mantener los métodos matemáticos en la mezcla
El uso de técnicas de visualización para comunicar los datos de perspectivas de la ciencia
En cuanto a su conjunto de herramientas de codificación
Trabajar con aplicaciones basadas en la web
Ir con tableros de instrumentos de análisis
Aprovechando sistemas de información geográfica (sig)
En cuanto a los mecanismos involucrados en hacer ciencia de datos
Trabajar con r
El uso de sql en un contexto de ciencia de datos
Mantener la codificación a un mínimo

es el término para los datos que tiene increíble volumen, velocidad y variedad. Tecnologías de bases de datos tradicionales no son capaces de manejar grandes volúmenes de datos - se requieren soluciones de datos de ingeniería más innovadores. Para evaluar su proyecto de si se califica como un proyecto de grandes datos, tenga en cuenta los siguientes criterios:

Volumen: Entre 1 terabytes / año and10 petabytes / año
Velocity: Entre 30 kilobytes / segundo y 30 gigabytes / segundo
Variedad: Fuentes combinadas de datos no estructurados, semi-estructurados y estructurados

La ciencia y la ingeniería de datos de datos no son los mismos

Los gerentes de contratación tienden a confundir los roles de los científico de datos e ingeniero de datos. Si bien es posible encontrar a alguien que lo hace un poco de ambos, cada campo es increíblemente complejo. Es poco probable que usted encontrará a alguien con conocimientos sólidos y experiencia en ambas áreas. Por esta razón, es importante ser capaz de identificar qué tipo de especialista es más adecuado para ayudarle a alcanzar sus metas específicas. Las descripciones siguientes deberían ayudarle a hacer eso.

Los científicos de datos: Los científicos de datos utilizan la codificación, métodos cuantitativos (matemática, estadística y de aprendizaje automático), y conocimientos altamente especializados en su área de estudio para obtener soluciones a problemas científicos complejos de negocios y.
Ingenieros de datos: Ingenieros de datos utilizan habilidades en ciencias de la computación e ingeniería de software para diseñar sistemas para, y resolver problemas con, manejo y manipulación de conjuntos de datos grandes.

También la ciencia de datos e inteligencia de negocios no son lo mismo

Científicos de datos centrada en el negocio y los analistas de negocio que hacen inteligencia de negocios son como primos. Ambos tipos de datos sobre el uso de especialistas para lograr los mismos objetivos de negocio, pero sus enfoques, tecnologías y funciones son diferentes. Las descripciones siguientes explican las diferencias entre los dos roles.

La inteligencia de negocios (BI): Soluciones de BI se construyen generalmente utilizando conjuntos de datos generados internamente - desde dentro de una organización y no desde fuera, en otras palabras. Herramientas y tecnologías comunes incluyen procesamiento analítico en línea, extracto de transformación y carga y almacenamiento de datos. Aunque BI veces implica métodos prospectivas como la previsión, estos métodos se basan en inferencias matemáticas simples a partir de datos históricos o actuales.
La ciencia de datos centrada en el negocio: Soluciones de negocios centrada en la ciencia de datos se construyen utilizando conjuntos de datos que son tanto internos como externos a la organización. Herramientas comunes, las tecnologías y de habilidades incluyen análisis basados en la nube, plataformas de programación estadística y matemática, aprendizaje automático, análisis de datos usando Python y R, y la visualización de datos avanzados. Científicos de datos centrada en el negocio utilizan métodos matemáticos o estadísticos avanzados para analizar y generar predicciones de grandes cantidades de datos empresariales.

En cuanto a los fundamentos de la Estadística, Aprendizaje Automático y Métodos Matemáticos en Ciencia de Datos

Si las estadísticas se ha descrito como la ciencia de obtener conocimientos a partir de datos, entonces ¿cuál es la diferencia entre un estadístico y un científico de datos? ¡Buena pregunta! Si bien muchas de las tareas de la ciencia de datos requieren un poco de conocimientos estadísticos cómo, el alcance y la amplitud de conocimientos y habilidades de base de un científico de datos es distinta de las de un estadístico. Las distinciones fundamentales se resumen a continuación.

Experiencia en el tema: Una de las características principales de los científicos de datos es que ofrecen un grado sofisticado de experiencia en el área a la que se aplican los métodos analíticos. Datos científicos necesitan esto para que sean capaces de entender realmente las implicaciones y aplicaciones de los puntos de vista de datos que generan. Un científico de datos debe tener suficiente experiencia en la materia para poder identificar la importancia de sus hallazgos e independientemente decidir cómo proceder en el análisis.
En contraste, los estadísticos suelen tener un conocimiento muy profundo de las estadísticas, pero muy poca experiencia en las materias a las que se aplican métodos estadísticos. La mayoría de las veces, se requieren los estadísticos para consultar con expertos en la materia externos para conseguir realmente un control firme sobre la importancia de sus hallazgos, y para poder decidir la mejor manera de avanzar en un análisis.
Enfoques matemáticos y de aprendizaje automático: Los estadísticos se basan principalmente en los métodos y procesos estadísticos al derivar percepciones de datos. En contraste, se requieren datos científicos para tirar de entre una amplia variedad de técnicas para derivar penetraciones de datos. Estos incluyen métodos estadísticos, sino que también incluyen los enfoques que no se basan en las estadísticas - como las que se encuentran en las matemáticas, la agrupación, clasificación, y los enfoques de aprendizaje automático no estadísticos.

Al ver la importancia de la estadística know-how

Usted no tiene que salir y conseguir un título en las estadísticas de practicar la ciencia de datos, pero al menos debe familiarizarse con algunos de los métodos más fundamentales que se utilizan en el análisis de datos estadísticos. Éstas incluyen:

Regresión lineal: La regresión lineal es útil para modelar las relaciones entre una variable dependiente y una o varias variables independientes. El propósito de la regresión lineal es descubrir (y cuantificar la fuerza de) correlaciones importantes entre las variables dependientes e independientes.
Análisis de series temporales: Análisis de series temporales implica analizar un conjunto de datos sobre los valores de los atributos en el tiempo, con el fin de predecir las futuras instancias de la medida sobre la base de los datos de observación del pasado.
Simulaciones de Monte Carlo: El método de Monte Carlo es una técnica de simulación que puede utilizar para probar hipótesis, para generar estimaciones de los parámetros, para predecir los resultados de escenarios, y para validar los modelos. El método es de gran alcance, ya que puede ser utilizado para simular muy rápidamente en cualquier lugar de 1 a 10.000 (o más) muestras de simulación para todos los procesos que están tratando de evaluar.
Estadísticas para datos espaciales: Una propiedad fundamental e importante de datos espaciales es que no es al azar. Es espacialmente dependiente y autocorrelacionados. Al modelar los datos espaciales, evitar los métodos estadísticos que asumen sus datos es aleatorio. Kriging y Krige dos métodos estadísticos que se pueden utilizar para modelar los datos espaciales. Estos métodos le permiten producir superficies de predicción para las áreas de estudio completos basados en conjuntos de puntos conocidos en el espacio geográfico.

Trabajar con el agrupamiento, clasificación y métodos de aprendizaje automático

El aprendizaje automático es la aplicación de algoritmos computacionales para aprender de (o deducir los patrones en) los conjuntos de datos en bruto. Clustering es un tipo particular de aprendizaje automático -sin supervisión aprendizaje automático, para ser exactos, lo que significa que los algoritmos deben aprender a partir de datos no etiquetados, y como tal, deben utilizar métodos de inferencia para descubrir correlaciones.

Clasificación, Por otro lado, se denomina aprendizaje de máquina supervisada, lo que significa que los algoritmos aprenden de los datos etiquetados. Las siguientes descripciones presentan algunos de los métodos más básicos de agrupación y clasificación:

k-means clustering: Por lo general, implementar algoritmos k-medios para subdividir los puntos de datos de un conjunto de datos en grupos basados en los valores medios más próximos. Para determinar la división óptima de los puntos de datos en grupos, de manera que la distancia entre puntos en cada grupo se reduce al mínimo, puede utilizar k-means clustering.
Algoritmos vecinos más cercanos: El propósito de un análisis del vecino más cercano es buscar y localizar ya sea un punto más cercano en el espacio o un valor numérico más cercano, dependiendo del atributo que se utiliza para la base de comparación.
Estimación de la densidad del núcleo: Una forma alternativa para identificar grupos en sus datos es utilizar una función de suavizado densidad. Estimación de la densidad Kernel (KDE) funciona mediante la colocación de un núcleo una función de ponderación que es útil para la cuantificación de la densidad - en cada punto de datos en el conjunto de datos, y luego sumando los granos para generar una estimación de la densidad del núcleo para la región en general.

Mantener los métodos matemáticos en la mezcla

Mucha consigue dijeron acerca del valor de la estadística en la práctica de la ciencia de datos, pero aplican métodos matemáticos rara vez se mencionan. Para ser franco, las matemáticas son la base de todos los análisis cuantitativos. Su importancia no debe ser subestimada. Los dos siguientes métodos matemáticos son particularmente útiles en la ciencia de datos.

La toma de decisiones multicriterio (MCDM): MCDM es una aproximación matemática de modelado decisión que puede utilizar cuando se tiene varios criterios o alternativas que se debe evaluar de forma simultánea al tomar una decisión.
Cadenas de Markov: Una cadena de Markov es un método matemático que las cadenas juntas una serie de variables generados al azar que representan el estado actual con el fin de modelar cómo los cambios en las variables de estado actuales afectan a estados futuros.

El uso de técnicas de visualización para comunicar los datos de Perspectivas de la ciencia

Toda la información y conocimiento en el mundo es inútil si no se puede comunicar. Si los científicos de datos no se pueden comunicar con claridad sus conclusiones a otros, potencialmente valiosa información de datos pueden permanecer sin explotar.

Siguiendo las mejores prácticas claras y específicas en el diseño de visualización de datos puede ayudarle a desarrollar visualizaciones que se comunican de una manera que es muy relevante y valiosa para los grupos de interés para los que se está trabajando. El siguiente es un breve resumen de algunas de las mejores prácticas más importantes en el diseño de visualización de datos.

Conoce a tu audiencia: Desde visualizaciones de datos están diseñados para un amplio espectro de diferentes públicos, con diferentes propósitos y diferentes niveles de habilidad, el primer paso para el diseño de una gran visualización de datos es conocer a su público. Desde cada audiencia se compone de una clase única de los consumidores, cada uno con sus necesidades de visualización de datos únicos, es esencial para aclarar exactamente para quién estás diseñando.
Elija los estilos de diseño adecuados: Después de considerar su público, elegir el estilo de diseño más apropiado es también crítico. Si su objetivo es atraer a su público a tomar un buceo de análisis más profundo en la visualización, a continuación, utilizar un estilo de diseño que induce una calculadora y una respuesta exigente en sus espectadores. Si usted quiere que su visualización de datos para alimentar la pasión de su público, utilizar un estilo de diseño emocionalmente convincente en su lugar.
Elija inteligentes tipos de datos gráficos: Por último, asegúrese de elegir tipos de gráficos que muestran de manera espectacular las tendencias de los datos que usted está buscando para revelar. Puede mostrar la misma tendencia de los datos de muchas maneras, pero algunos métodos de entregar un mensaje visual de manera más eficaz que otros. Escoja el tipo de gráfico que ofrece más directamente un mensaje visual clara, completa.

En cuanto a su conjunto de herramientas de codificación

D3.js es el lenguaje de programación ideal para la construcción de las visualizaciones basadas en web dinámicas interactivas. Si ya eres un programador web, o si no te importa coger el tiempo necesario para ponerse al día en los conceptos básicos de HTML, CSS y javascript, entonces es una obviedad: Usando D3.js diseñar interactivo visualizaciones de datos basado en la web es seguro que será la solución perfecta para muchos de sus problemas de visualización.

Trabajar con aplicaciones basadas en la Web

Si usted no tiene el tiempo ni la energía para entrar en la codificación de su propia visualización de datos a medida, no el miedo - hay algunas aplicaciones en línea increíbles disponibles para ayudarle a conseguir el trabajo hecho en ningún momento. La siguiente lista detalla algunos excelentes alternativas.

Watson Analytics: Watson Analytics es la primera solución de la ciencia y de análisis de datos a gran escala que se ha hecho disponible como una oferta basada en la nube 100%. Watson Analytics se construyó con el fin de democratizar el poder de la ciencia de datos. Es una plataforma donde los usuarios de todos los niveles pueden ir de acceso, filtrar, descubrir, visualizar, informar y colaborar en ideas basadas en datos.
CartoDB: Para los no programadores o no-cartógrafos, CartoDB se trata de la más potente solución de mapa de decisiones que está disponible en línea. Se utiliza para las comunicaciones visuales digitales por personas de todo tipo de industrias - incluyendo los servicios de información, ingeniería de software, medios y entretenimiento, y el desarrollo urbano.
Piktochart: La aplicación web Piktochart proporciona una interfaz fácil de usar para la creación de hermosos infografía. La aplicación ofrece una gran selección de atractivas plantillas de diseño profesional. Con Piktochart, puede hacer que la infografía ya sea estática o dinámica.

Ir con tableros de instrumentos de análisis

Cuando la palabra " salpicadero " surge, muchas personas asocian con las soluciones de inteligencia de negocios a la antigua. Esta asociación es defectuoso. Un tablero de instrumentos es más que otra forma de utilizar métodos de visualización para comunicar ideas de datos.

Si bien es cierto que se puede utilizar un tablero de instrumentos para comunicar los resultados que se generan a partir de la inteligencia de negocio, también puede utilizarlos para comunicarse y proporcionar información valiosa que se derivan de la ciencia de datos centrada en el negocio. El hecho de cuadros de mando han sido alrededor de un rato, no deben ser ignorados como herramientas eficaces para la comunicación de información valiosa de datos.

Aprovechando Sistemas de Información Geográfica (SIG)

Sistemas de información geográfica (SIG) es otro recurso subestimado en la ciencia de datos. Cuando usted necesita para descubrir y cuantificar las tendencias de localización en su conjunto de datos, SIG es la solución perfecta para el trabajo. Los mapas son una forma de visualización de datos espaciales que se puede generar mediante SIG, pero el software SIG también es bueno para las formas más avanzadas de análisis y visualización. Las dos soluciones GIS más populares se detallan a continuación.

ArcGIS Desktop: ArcGIS propietario para Desktop es la aplicación de mapas de decisiones más utilizado.
QGIS:Si usted no tiene el dinero para invertir en ArcGIS for Desktop, puede usar QGIS de código abierto para llevar a cabo la mayor parte de los mismos objetivos de forma gratuita.

En cuanto a los mecanismos involucrados en hacer ciencia de datos

Si está realmente interesado en la ciencia de datos, que realmente debe hacer el esfuerzo de dominar Python, sin duda el lenguaje de programación más fácil para la ciencia de datos. Python es un lenguaje de programación orientado a objetos que es perfecto para un fácil procesamiento de datos, análisis y visualización.

Python es uno de los lenguajes de programación más populares. Eso es porque es relativamente fácil de dominar y porque permite a los usuarios para llevar a cabo varias tareas con sólo unas pocas líneas de código. La siguiente es una lista de las tres bibliotecas de Python que son más útiles y relevantes en la práctica de la ciencia de datos.

NumPy: los Numpy el paquete está en la raíz de casi todos los cálculos numéricos en Python. Es porque NumPy ofrece a los usuarios una forma de crear objetos de matriz multi-dimensionales en Python.
SciPy: SciPy es construido en la cima de, y extiende las capacidades de la NumPy paquete. SciPy es una colección de algoritmos matemáticos y funciones sofisticadas que se pueden utilizar para la cuantificación vectorial, funciones estadísticas, n-dimensionales de operaciones de imagen, rutinas de integración, herramientas de interpolación, álgebra lineal dispersa, solucionadores lineales, herramientas de optimización, herramientas de procesamiento de señales, matrices dispersas, y muchas otras utilidades que no son atendidos por otras bibliotecas de Python.
Matplotlib: Matplotlib se construye en la parte superior de la NumPy y SciPy. Utilizar el Matplotlib biblioteca cuando desea crear representaciones visuales de sus conjuntos de datos o análisis de datos hallazgos.

Trabajar con R

Para aquellos que no lo conocen, R es un código abierto, sistema de software estadístico gratuito que está ampliamente adoptado en todo el sector de las ciencias de datos. Sí, no es tan fácil de aprender como Python, pero puede ser mucho más potente para ciertos tipos de análisis estadísticos avanzados. También tiene capacidades particularmente avanzadas de visualización de datos. La siguiente es una lista de tres paquetes de R que son particularmente útiles en la práctica de la ciencia de datos.

Pronóstico: los pronóstico paquete contiene varias funciones de predicción que se puede adaptar a utilizar para ARIMA, o para otros tipos de pronósticos de series de tiempo univariadas.
Mlogit: Un modelo logit multinomial es uno en el que las observaciones de una clase conocida se utilizan para " tren " el software para que pueda identificar las clases de otras observaciones cuyas clases son desconocidos. Si desea llevar a cabo la regresión logística en R, se puede utilizar el paquete de logit multinomial.
ggplot2: los ggplot2 paquete es el paquete fundamental de visualización de datos en R. Se le ofrece una manera de crear todos los diferentes tipos de gráficos de datos, incluyendo histogramas, diagramas de dispersión, gráficos de barras, gráficos de caja y gráficos de densidad. Ofrece una amplia variedad de opciones de diseño - incluyendo opciones en colores, el diseño, la transparencia y la densidad de líneas.

El uso de SQL en un contexto de ciencia de datos

Structured Query Language (SQL) es un conjunto de reglas que se pueden utilizar de forma rápida y eficiente consultar, actualizar, modificar, agregar o eliminar datos en bases de datos grandes y complejos. Es útil en la ciencia de datos cuando se necesita para hacer algunas consultas y manipulación de datos rápida.

Consulta de registros de datos y filtrado: En SQL, se utiliza el SELECT funcionar para consultar un conjunto de datos. Si a continuación, utilice el DÓNDE argumento, puede limitar la salida de la consulta sólo a los registros que cumplan los criterios que ha especificado. Esta es una forma de usar SQL para consultar y filtrar datos.
La agregación de los datos: Si desea agregar sus datos con SQL, puede utilizar la AGRUPAR POR comunicado al grupo su conjunto de datos de acuerdo a los valores de atributos compartidos.

Mantener la codificación a un mínimo

Si usted no está listo para la codificación de las cosas por sí mismo, se puede tratar de completar un proyecto utilizando aplicaciones de software off-the-shelf lugar. Puede utilizar las dos aplicaciones de escritorio siguientes para realizar tareas de ciencia avanzada de datos sin tener que aprender a código.

Microsoft Excel: Aunque se trata de una aplicación de software un tanto simple, Microsoft Excel puede ser bastante útil en la práctica de la ciencia de datos. Si quieres hacer una inspección al azar rápida de las tendencias y los valores atípicos en el conjunto de datos, puede utilizar filtros de Excel, formato condicional, y trazar opciones para hacer el trabajo rápido. Tablas dinámicas de Excel son otra gran opción si necesita volver a formatear y resumir sus tablas de datos rápidamente. Por último, si desea automatizar la manipulación de datos o de análisis de tareas dentro de Excel, puede utilizar las macros de Excel para realizar el trabajo.
KNIME: KNIME es un software de minería de datos que se puede utilizar para el análisis predictivo de código libre. El software es bastante simple que los principiantes de ciencia de datos incluso pueden utilizarlo, pero ofrece plug-ins para extender las capacidades de las necesidades de los usuarios más avanzados. Análisis KNIME son útiles para hacer las cosas como aumentar las ventas y ventas cruzadas, la reducción de la pérdida de clientes, análisis de los sentimientos, y análisis de redes sociales.

Sobre el autor

Clases de análisis de datos grandes

Herramientas y técnicas de análisis existentes serán muy útiles para dar sentido a los datos grandes. Los algoritmos que forman parte de estas herramientas, sin embargo, deben ser capaces de trabajar con grandes cantidades de potencialmente en…

La determinación de los destinatarios de visualizaciones de datos

Al diseñar una visualización de datos, primero debe considerar claramente su público objetivo. A través de qué medio se transmitió la visualización de datos y con qué propósito? ¿Cuál es el nivel de habilidad de su público? ¿Qué…

Asegurar el éxito cuando se utiliza el análisis predictivo

Piense en el análisis predictivo como una bombilla brillante impulsado por los datos. La luz (visión) de análisis predictivo puede potenciar su estrategia, optimizar sus operaciones y mejorar su cuenta de resultados. Los siguientes cuatro…

Análisis exploratorio de datos (eda)

Antes de aplicar técnicas estadísticas para un conjunto de datos, es importante examinar los datos para entender sus propiedades básicas. Puede utilizar una serie de técnicas que se conocen colectivamente como Análisis Exploratorio de Datos…

¿Cómo elegir un algoritmo para un modelo de análisis predictivo

Varios algoritmos estadísticos, de minería de datos, y la máquina de aprendizaje están disponibles para su uso en el modelo de análisis predictivo. Usted está en una mejor posición para seleccionar un algoritmo después de que haya definido…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Minería sus datos utilizando la ciencia de datos

En la era de los grandes datos, parece que las organizaciones de todo tipo y tamaño están en una misión de contratación. Quieren contratar a científicos de datos para que puedan utilizar los datos y la toma de decisiones los datos informados…

Análisis de negocios (OLAP)

Análisis del negocio es el término utilizado para describir los datos que visualizan de una manera multidimensional. Datos de consulta e informe lo general se presenta en la fila tras fila de datos bidimensionales. La primera dimensión es los…

La minería de datos para el almacenamiento de datos

A veces, la minería de datos para el almacenamiento de datos no se mezcla con las otras formas de inteligencia de negocios. Esta falta de integración se produce por dos razones:Los usuarios de negocios no tienen el conocimiento requerido en bases…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Definición de los grandes datos: el volumen, la velocidad, y la variedad

Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres…

Los datos estadísticos utilizados en la comercialización de datos impulsada

Cualquiera que haya utilizado una hoja de cálculo está familiarizado con la idea de tipos de datos. Datos viene en dos sabores básicos: numéricas y de caracteres - números y texto. Datos de Carácter no está involucrado en el análisis…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » La ciencia de datos para dummies