La elección de los mejores lenguajes de programación para la ciencia de datos
La codificación es una de las habilidades primarias en la caja de herramientas de un científico de datos. Algunas aplicaciones increíblemente poderosos han hecho con éxito acabar con la necesidad de codificar en algunos contextos de datos en la ciencia, pero nunca van a poder utilizar estas aplicaciones para el análisis y la visualización personalizado. Para tareas avanzadas, vas a tener que codificar las cosas por ti mismo, utilizando el lenguaje de programación Python o el lenguaje de programación R.
El uso de Python para la ciencia de datos
Python es un lenguaje fácil de aprender, de programación legible que puede utilizar para munging avanzada de datos, análisis y visualización. Puede instalarlo y configurarlo increíblemente fácil, y se puede aprender más fácilmente Python que el lenguaje de programación R. Python se ejecuta en Mac, Windows y UNIX.
IPython ofrece una interfaz de codificación muy fácil de usar para las personas que no les gusta la codificación de la línea de comandos. Si descarga e instala la distribución Anaconda Python, se obtiene su entorno IPython, así como la pila NumPy, que incluye las bibliotecas NumPy, SciPy, matplotlib y pandas de que es probable que necesita en sus procedimientos de detección de decisiones de datos.
El paquete NumPy base es un facilitador excelente para computación científica en Python, ya que proporciona contenedores / estructuras de matriz que se pueden utilizar para hacer cálculos con ambos vectores y matrices (como en I). SciPy es la biblioteca de Python que se usa más comúnmente para la computación científica y técnica. Ofrece un montón de algoritmos matemáticos que simplemente no están disponibles en otras bibliotecas. Funcionalidades más populares son el agrupamiento, álgebra lineal y matriz de matemáticas, funcionalidades matrices dispersas, análisis espacial, y las estadísticas. Matplotlib es premiere biblioteca de visualización de datos de Python. Por último, la biblioteca pandas es útil para tareas munging datos.
El uso de R para la ciencia de datos
R es otro lenguaje de programación popular que se usa para la computación científica y estadística. Escribir análisis y visualización rutinas en I se conoce como R scripting. R ha sido desarrollado específicamente para la informática estadística y, en consecuencia, tiene una oferta más abundante de código abierto paquetes informáticos estadísticos que las ofertas de Python. Además, las capacidades de visualización de datos de R son más sofisticados que Python. Dicho esto, Python es un poco justo más fácil de aprender y usar.
R tiene una comunidad de usuarios muy grande y muy activo. Los desarrolladores están subiendo con (y compartir) nuevos paquetes todo el tiempo - por mencionar sólo unos pocos, la pronóstico paquete, el ggplot2 paquete, y el statnet / igraph paquetes. Si usted quiere hacer el análisis predictivo y pronóstico en R, la pronóstico paquete es un buen lugar para empezar. Este paquete ofrece la ARMA, AR, y los métodos de suavización exponencial.
Para la visualización de datos, puede utilizar el ggplot2 paquete, que tiene todos los tipos de gráficos de datos estándar, además de un montón más. Por último, los paquetes de análisis de red de R son bastante especial también. Por ejemplo, puede utilizar igraph y StatNet para análisis de redes sociales, mapeo genético, la planificación del tráfico, e incluso el modelado hidráulico.