La ciencia de datos para dummies

Tradicionalmente, Big Data

es el término para los datos que tiene increíble volumen, velocidad y variedad. Tecnologías de bases de datos tradicionales no son capaces de manejar grandes volúmenes de datos - se requieren soluciones de datos de ingeniería más innovadores. Para evaluar su proyecto de si se califica como un proyecto de grandes datos, tenga en cuenta los siguientes criterios:

  • Volumen: Entre 1 terabytes / año and10 petabytes / año

  • Velocity: Entre 30 kilobytes / segundo y 30 gigabytes / segundo

  • Variedad: Fuentes combinadas de datos no estructurados, semi-estructurados y estructurados

La ciencia y la ingeniería de datos de datos no son los mismos

Los gerentes de contratación tienden a confundir los roles de los científico de datos e ingeniero de datos. Si bien es posible encontrar a alguien que lo hace un poco de ambos, cada campo es increíblemente complejo. Es poco probable que usted encontrará a alguien con conocimientos sólidos y experiencia en ambas áreas. Por esta razón, es importante ser capaz de identificar qué tipo de especialista es más adecuado para ayudarle a alcanzar sus metas específicas. Las descripciones siguientes deberían ayudarle a hacer eso.

  • Los científicos de datos: Los científicos de datos utilizan la codificación, métodos cuantitativos (matemática, estadística y de aprendizaje automático), y conocimientos altamente especializados en su área de estudio para obtener soluciones a problemas científicos complejos de negocios y.

  • Ingenieros de datos: Ingenieros de datos utilizan habilidades en ciencias de la computación e ingeniería de software para diseñar sistemas para, y resolver problemas con, manejo y manipulación de conjuntos de datos grandes.

También la ciencia de datos e inteligencia de negocios no son lo mismo

Científicos de datos centrada en el negocio y los analistas de negocio que hacen inteligencia de negocios son como primos. Ambos tipos de datos sobre el uso de especialistas para lograr los mismos objetivos de negocio, pero sus enfoques, tecnologías y funciones son diferentes. Las descripciones siguientes explican las diferencias entre los dos roles.

  • La inteligencia de negocios (BI): Soluciones de BI se construyen generalmente utilizando conjuntos de datos generados internamente - desde dentro de una organización y no desde fuera, en otras palabras. Herramientas y tecnologías comunes incluyen procesamiento analítico en línea, extracto de transformación y carga y almacenamiento de datos. Aunque BI veces implica métodos prospectivas como la previsión, estos métodos se basan en inferencias matemáticas simples a partir de datos históricos o actuales.

  • La ciencia de datos centrada en el negocio: Soluciones de negocios centrada en la ciencia de datos se construyen utilizando conjuntos de datos que son tanto internos como externos a la organización. Herramientas comunes, las tecnologías y de habilidades incluyen análisis basados ​​en la nube, plataformas de programación estadística y matemática, aprendizaje automático, análisis de datos usando Python y R, y la visualización de datos avanzados. Científicos de datos centrada en el negocio utilizan métodos matemáticos o estadísticos avanzados para analizar y generar predicciones de grandes cantidades de datos empresariales.

En cuanto a los fundamentos de la Estadística, Aprendizaje Automático y Métodos Matemáticos en Ciencia de Datos

Si las estadísticas se ha descrito como la ciencia de obtener conocimientos a partir de datos, entonces ¿cuál es la diferencia entre un estadístico y un científico de datos? ¡Buena pregunta! Si bien muchas de las tareas de la ciencia de datos requieren un poco de conocimientos estadísticos cómo, el alcance y la amplitud de conocimientos y habilidades de base de un científico de datos es distinta de las de un estadístico. Las distinciones fundamentales se resumen a continuación.

  • Experiencia en el tema: Una de las características principales de los científicos de datos es que ofrecen un grado sofisticado de experiencia en el área a la que se aplican los métodos analíticos. Datos científicos necesitan esto para que sean capaces de entender realmente las implicaciones y aplicaciones de los puntos de vista de datos que generan. Un científico de datos debe tener suficiente experiencia en la materia para poder identificar la importancia de sus hallazgos e independientemente decidir cómo proceder en el análisis.

    En contraste, los estadísticos suelen tener un conocimiento muy profundo de las estadísticas, pero muy poca experiencia en las materias a las que se aplican métodos estadísticos. La mayoría de las veces, se requieren los estadísticos para consultar con expertos en la materia externos para conseguir realmente un control firme sobre la importancia de sus hallazgos, y para poder decidir la mejor manera de avanzar en un análisis.

  • Enfoques matemáticos y de aprendizaje automático: Los estadísticos se basan principalmente en los métodos y procesos estadísticos al derivar percepciones de datos. En contraste, se requieren datos científicos para tirar de entre una amplia variedad de técnicas para derivar penetraciones de datos. Estos incluyen métodos estadísticos, sino que también incluyen los enfoques que no se basan en las estadísticas - como las que se encuentran en las matemáticas, la agrupación, clasificación, y los enfoques de aprendizaje automático no estadísticos.

Al ver la importancia de la estadística know-how

Usted no tiene que salir y conseguir un título en las estadísticas de practicar la ciencia de datos, pero al menos debe familiarizarse con algunos de los métodos más fundamentales que se utilizan en el análisis de datos estadísticos. Éstas incluyen:

  • Regresión lineal: La regresión lineal es útil para modelar las relaciones entre una variable dependiente y una o varias variables independientes. El propósito de la regresión lineal es descubrir (y cuantificar la fuerza de) correlaciones importantes entre las variables dependientes e independientes.

  • Análisis de series temporales: Análisis de series temporales implica analizar un conjunto de datos sobre los valores de los atributos en el tiempo, con el fin de predecir las futuras instancias de la medida sobre la base de los datos de observación del pasado.

  • Simulaciones de Monte Carlo: El método de Monte Carlo es una técnica de simulación que puede utilizar para probar hipótesis, para generar estimaciones de los parámetros, para predecir los resultados de escenarios, y para validar los modelos. El método es de gran alcance, ya que puede ser utilizado para simular muy rápidamente en cualquier lugar de 1 a 10.000 (o más) muestras de simulación para todos los procesos que están tratando de evaluar.

  • Estadísticas para datos espaciales: Una propiedad fundamental e importante de datos espaciales es que no es al azar. Es espacialmente dependiente y autocorrelacionados. Al modelar los datos espaciales, evitar los métodos estadísticos que asumen sus datos es aleatorio. Kriging y Krige dos métodos estadísticos que se pueden utilizar para modelar los datos espaciales. Estos métodos le permiten producir superficies de predicción para las áreas de estudio completos basados ​​en conjuntos de puntos conocidos en el espacio geográfico.

Trabajar con el agrupamiento, clasificación y métodos de aprendizaje automático

El aprendizaje automático es la aplicación de algoritmos computacionales para aprender de (o deducir los patrones en) los conjuntos de datos en bruto. Clustering es un tipo particular de aprendizaje automático -sin supervisión aprendizaje automático, para ser exactos, lo que significa que los algoritmos deben aprender a partir de datos no etiquetados, y como tal, deben utilizar métodos de inferencia para descubrir correlaciones.

Clasificación, Por otro lado, se denomina aprendizaje de máquina supervisada, lo que significa que los algoritmos aprenden de los datos etiquetados. Las siguientes descripciones presentan algunos de los métodos más básicos de agrupación y clasificación:

  • k-means clustering: Por lo general, implementar algoritmos k-medios para subdividir los puntos de datos de un conjunto de datos en grupos basados ​​en los valores medios más próximos. Para determinar la división óptima de los puntos de datos en grupos, de manera que la distancia entre puntos en cada grupo se reduce al mínimo, puede utilizar k-means clustering.

  • Algoritmos vecinos más cercanos: El propósito de un análisis del vecino más cercano es buscar y localizar ya sea un punto más cercano en el espacio o un valor numérico más cercano, dependiendo del atributo que se utiliza para la base de comparación.

  • Estimación de la densidad del núcleo: Una forma alternativa para identificar grupos en sus datos es utilizar una función de suavizado densidad. Estimación de la densidad Kernel (KDE) funciona mediante la colocación de un núcleo una función de ponderación que es útil para la cuantificación de la densidad - en cada punto de datos en el conjunto de datos, y luego sumando los granos para generar una estimación de la densidad del núcleo para la región en general.

Mantener los métodos matemáticos en la mezcla

Mucha consigue dijeron acerca del valor de la estadística en la práctica de la ciencia de datos, pero aplican métodos matemáticos rara vez se mencionan. Para ser franco, las matemáticas son la base de todos los análisis cuantitativos. Su importancia no debe ser subestimada. Los dos siguientes métodos matemáticos son particularmente útiles en la ciencia de datos.

  • La toma de decisiones multicriterio (MCDM): MCDM es una aproximación matemática de modelado decisión que puede utilizar cuando se tiene varios criterios o alternativas que se debe evaluar de forma simultánea al tomar una decisión.

  • Cadenas de Markov: Una cadena de Markov es un método matemático que las cadenas juntas una serie de variables generados al azar que representan el estado actual con el fin de modelar cómo los cambios en las variables de estado actuales afectan a estados futuros.

El uso de técnicas de visualización para comunicar los datos de Perspectivas de la ciencia

Toda la información y conocimiento en el mundo es inútil si no se puede comunicar. Si los científicos de datos no se pueden comunicar con claridad sus conclusiones a otros, potencialmente valiosa información de datos pueden permanecer sin explotar.

Siguiendo las mejores prácticas claras y específicas en el diseño de visualización de datos puede ayudarle a desarrollar visualizaciones que se comunican de una manera que es muy relevante y valiosa para los grupos de interés para los que se está trabajando. El siguiente es un breve resumen de algunas de las mejores prácticas más importantes en el diseño de visualización de datos.

  • Conoce a tu audiencia: Desde visualizaciones de datos están diseñados para un amplio espectro de diferentes públicos, con diferentes propósitos y diferentes niveles de habilidad, el primer paso para el diseño de una gran visualización de datos es conocer a su público. Desde cada audiencia se compone de una clase única de los consumidores, cada uno con sus necesidades de visualización de datos únicos, es esencial para aclarar exactamente para quién estás diseñando.

  • Elija los estilos de diseño adecuados: Después de considerar su público, elegir el estilo de diseño más apropiado es también crítico. Si su objetivo es atraer a su público a tomar un buceo de análisis más profundo en la visualización, a continuación, utilizar un estilo de diseño que induce una calculadora y una respuesta exigente en sus espectadores. Si usted quiere que su visualización de datos para alimentar la pasión de su público, utilizar un estilo de diseño emocionalmente convincente en su lugar.

  • Elija inteligentes tipos de datos gráficos: Por último, asegúrese de elegir tipos de gráficos que muestran de manera espectacular las tendencias de los datos que usted está buscando para revelar. Puede mostrar la misma tendencia de los datos de muchas maneras, pero algunos métodos de entregar un mensaje visual de manera más eficaz que otros. Escoja el tipo de gráfico que ofrece más directamente un mensaje visual clara, completa.

En cuanto a su conjunto de herramientas de codificación

D3.js es el lenguaje de programación ideal para la construcción de las visualizaciones basadas en web dinámicas interactivas. Si ya eres un programador web, o si no te importa coger el tiempo necesario para ponerse al día en los conceptos básicos de HTML, CSS y javascript, entonces es una obviedad: Usando D3.js diseñar interactivo visualizaciones de datos basado en la web es seguro que será la solución perfecta para muchos de sus problemas de visualización.

Trabajar con aplicaciones basadas en la Web

Si usted no tiene el tiempo ni la energía para entrar en la codificación de su propia visualización de datos a medida, no el miedo - hay algunas aplicaciones en línea increíbles disponibles para ayudarle a conseguir el trabajo hecho en ningún momento. La siguiente lista detalla algunos excelentes alternativas.

  • Watson Analytics: Watson Analytics es la primera solución de la ciencia y de análisis de datos a gran escala que se ha hecho disponible como una oferta basada en la nube 100%. Watson Analytics se construyó con el fin de democratizar el poder de la ciencia de datos. Es una plataforma donde los usuarios de todos los niveles pueden ir de acceso, filtrar, descubrir, visualizar, informar y colaborar en ideas basadas en datos.

  • CartoDB: Para los no programadores o no-cartógrafos, CartoDB se trata de la más potente solución de mapa de decisiones que está disponible en línea. Se utiliza para las comunicaciones visuales digitales por personas de todo tipo de industrias - incluyendo los servicios de información, ingeniería de software, medios y entretenimiento, y el desarrollo urbano.

  • Piktochart: La aplicación web Piktochart proporciona una interfaz fácil de usar para la creación de hermosos infografía. La aplicación ofrece una gran selección de atractivas plantillas de diseño profesional. Con Piktochart, puede hacer que la infografía ya sea estática o dinámica.

Ir con tableros de instrumentos de análisis

Cuando la palabra " salpicadero " surge, muchas personas asocian con las soluciones de inteligencia de negocios a la antigua. Esta asociación es defectuoso. Un tablero de instrumentos es más que otra forma de utilizar métodos de visualización para comunicar ideas de datos.

Si bien es cierto que se puede utilizar un tablero de instrumentos para comunicar los resultados que se generan a partir de la inteligencia de negocio, también puede utilizarlos para comunicarse y proporcionar información valiosa que se derivan de la ciencia de datos centrada en el negocio. El hecho de cuadros de mando han sido alrededor de un rato, no deben ser ignorados como herramientas eficaces para la comunicación de información valiosa de datos.

Aprovechando Sistemas de Información Geográfica (SIG)

Sistemas de información geográfica (SIG) es otro recurso subestimado en la ciencia de datos. Cuando usted necesita para descubrir y cuantificar las tendencias de localización en su conjunto de datos, SIG es la solución perfecta para el trabajo. Los mapas son una forma de visualización de datos espaciales que se puede generar mediante SIG, pero el software SIG también es bueno para las formas más avanzadas de análisis y visualización. Las dos soluciones GIS más populares se detallan a continuación.

  • ArcGIS Desktop: ArcGIS propietario para Desktop es la aplicación de mapas de decisiones más utilizado.

  • QGIS:Si usted no tiene el dinero para invertir en ArcGIS for Desktop, puede usar QGIS de código abierto para llevar a cabo la mayor parte de los mismos objetivos de forma gratuita.

En cuanto a los mecanismos involucrados en hacer ciencia de datos

Si está realmente interesado en la ciencia de datos, que realmente debe hacer el esfuerzo de dominar Python, sin duda el lenguaje de programación más fácil para la ciencia de datos. Python es un lenguaje de programación orientado a objetos que es perfecto para un fácil procesamiento de datos, análisis y visualización.

Python es uno de los lenguajes de programación más populares. Eso es porque es relativamente fácil de dominar y porque permite a los usuarios para llevar a cabo varias tareas con sólo unas pocas líneas de código. La siguiente es una lista de las tres bibliotecas de Python que son más útiles y relevantes en la práctica de la ciencia de datos.

  • NumPy: los Numpy el paquete está en la raíz de casi todos los cálculos numéricos en Python. Es porque NumPy ofrece a los usuarios una forma de crear objetos de matriz multi-dimensionales en Python.

  • SciPy: SciPy es construido en la cima de, y extiende las capacidades de la NumPy paquete. SciPy es una colección de algoritmos matemáticos y funciones sofisticadas que se pueden utilizar para la cuantificación vectorial, funciones estadísticas, n-dimensionales de operaciones de imagen, rutinas de integración, herramientas de interpolación, álgebra lineal dispersa, solucionadores lineales, herramientas de optimización, herramientas de procesamiento de señales, matrices dispersas, y muchas otras utilidades que no son atendidos por otras bibliotecas de Python.

  • Matplotlib: Matplotlib se construye en la parte superior de la NumPy y SciPy. Utilizar el Matplotlib biblioteca cuando desea crear representaciones visuales de sus conjuntos de datos o análisis de datos hallazgos.

Trabajar con R

Para aquellos que no lo conocen, R es un código abierto, sistema de software estadístico gratuito que está ampliamente adoptado en todo el sector de las ciencias de datos. Sí, no es tan fácil de aprender como Python, pero puede ser mucho más potente para ciertos tipos de análisis estadísticos avanzados. También tiene capacidades particularmente avanzadas de visualización de datos. La siguiente es una lista de tres paquetes de R que son particularmente útiles en la práctica de la ciencia de datos.

  • Pronóstico: los pronóstico paquete contiene varias funciones de predicción que se puede adaptar a utilizar para ARIMA, o para otros tipos de pronósticos de series de tiempo univariadas.

  • Mlogit: Un modelo logit multinomial es uno en el que las observaciones de una clase conocida se utilizan para " tren " el software para que pueda identificar las clases de otras observaciones cuyas clases son desconocidos. Si desea llevar a cabo la regresión logística en R, se puede utilizar el paquete de logit multinomial.

  • ggplot2: los ggplot2 paquete es el paquete fundamental de visualización de datos en R. Se le ofrece una manera de crear todos los diferentes tipos de gráficos de datos, incluyendo histogramas, diagramas de dispersión, gráficos de barras, gráficos de caja y gráficos de densidad. Ofrece una amplia variedad de opciones de diseño - incluyendo opciones en colores, el diseño, la transparencia y la densidad de líneas.

El uso de SQL en un contexto de ciencia de datos

Structured Query Language (SQL) es un conjunto de reglas que se pueden utilizar de forma rápida y eficiente consultar, actualizar, modificar, agregar o eliminar datos en bases de datos grandes y complejos. Es útil en la ciencia de datos cuando se necesita para hacer algunas consultas y manipulación de datos rápida.

  • Consulta de registros de datos y filtrado: En SQL, se utiliza el SELECT funcionar para consultar un conjunto de datos. Si a continuación, utilice el DÓNDE argumento, puede limitar la salida de la consulta sólo a los registros que cumplan los criterios que ha especificado. Esta es una forma de usar SQL para consultar y filtrar datos.

  • La agregación de los datos: Si desea agregar sus datos con SQL, puede utilizar la AGRUPAR POR comunicado al grupo su conjunto de datos de acuerdo a los valores de atributos compartidos.

Mantener la codificación a un mínimo

Si usted no está listo para la codificación de las cosas por sí mismo, se puede tratar de completar un proyecto utilizando aplicaciones de software off-the-shelf lugar. Puede utilizar las dos aplicaciones de escritorio siguientes para realizar tareas de ciencia avanzada de datos sin tener que aprender a código.

  • Microsoft Excel: Aunque se trata de una aplicación de software un tanto simple, Microsoft Excel puede ser bastante útil en la práctica de la ciencia de datos. Si quieres hacer una inspección al azar rápida de las tendencias y los valores atípicos en el conjunto de datos, puede utilizar filtros de Excel, formato condicional, y trazar opciones para hacer el trabajo rápido. Tablas dinámicas de Excel son otra gran opción si necesita volver a formatear y resumir sus tablas de datos rápidamente. Por último, si desea automatizar la manipulación de datos o de análisis de tareas dentro de Excel, puede utilizar las macros de Excel para realizar el trabajo.

  • KNIME: KNIME es un software de minería de datos que se puede utilizar para el análisis predictivo de código libre. El software es bastante simple que los principiantes de ciencia de datos incluso pueden utilizarlo, pero ofrece plug-ins para extender las capacidades de las necesidades de los usuarios más avanzados. Análisis KNIME son útiles para hacer las cosas como aumentar las ventas y ventas cruzadas, la reducción de la pérdida de clientes, análisis de los sentimientos, y análisis de redes sociales.




» » » » La ciencia de datos para dummies