Python para la ciencia de datos para dummies

Desarrolladores todas partes cometen errores a veces. Sin embargo, es posible que pueda ahorrar algo de tiempo y trabajar si usted sabe acerca de los tipos más frecuentes de errores de programación que la gente hace con Python. La siguiente lista le informa acerca de estos errores comunes:

  • Tener la sangría incorrecta: Muchas de las funciones de Python dependen de sangría. Por ejemplo, cuando se crea una nueva clase, todo en esa clase se inserta debajo de la declaración de clase. Lo mismo es cierto para la toma, lazo, y otras declaraciones estructurales. Si usted encuentra que su código se ejecuta una tarea cuando realmente no debería empezar a revisar la sangría que está utilizando.

  • Utilizando el operador de asignación en lugar del operador de igualdad: Al realizar una comparación entre dos objetos o valor, sólo tiene que utilizar el operador de igualdad (==), no el operador de asignación (=). El operador de asignación coloca un objeto o valor dentro de una variable y no se compara nada.

  • Función Poner llamadas en el orden equivocado al crear declaraciones complejas: Python siempre ejecuta funciones de izquierda a derecha. Así que la declaración MyString.strip (). Central (21, "*") produce un resultado diferente que MyString.center (21, "*"). Tira (). Cuando se encuentra con una situación en la que la salida de una serie de funciones concatenadas es diferente de lo que esperaba, es necesario comprobar para la función de asegurar que cada función está en el lugar correcto.

  • Perder puntuacion: Es posible poner puntuacion en el lugar equivocado y crear un resultado completamente diferente. Recuerde que debe incluir dos puntos al final de cada declaración estructural. Además, los paréntesis colocación es crítico. Por ejemplo, (1 + 2) * (3 + 4), 1 + ((2 * 3) + 4), y 1 + (2 * (3 + 4)) todos producen resultados diferentes.

  • Utilizando el operador lógico incorrecto: La mayoría de los operadores no presentan los desarrolladores con problemas, pero los operadores lógicos hacen. Recuerde que debe utilizar y para determinar cuando ambos operandos deben estar Cierto y o cuando cualquiera de los operandos pueden ser Cierto.

  • Creación de errores conde-a-uno en bucles: Recuerde que un bucle no cuenta el último número que especifique en un rango. Así que si usted especifica el rango [01:11], que en realidad obtener salida para valores entre 1 y 10.

  • Tener la capitalización equivocada: Python es entre mayúsculas y minúsculas, por lo MiVar es diferente de mivar y MYVAR. Compruebe siempre la capitalización cuando usted encuentra que no se puede acceder a un valor que se espera para el acceso.

  • Spelling algo mal: Incluso los desarrolladores experimentados sufren de errores de ortografía a veces. Garantizar que se utiliza un enfoque común para denominar las variables, clases y funciones sí ayuda. Sin embargo, incluso un esquema de nombres coherentes no siempre le impide escribir MyVer cuando te referías a escribir MiVar.

Estilos trama

Siempre que se crea una parcela en Python, es necesario identificar las fuentes de información a través de algo más que las líneas. Creación de una trama que utiliza diferentes tipos de líneas y símbolos de punto de datos hace que la trama mucho más fácil para que otras personas usen. La siguiente tabla muestra los estilos de línea de la trama.

ColorMarcadorEstilo
PrefijoColor de líneaPrefijoMarcador EstiloPrefijoEstilo de línea
bazul.punto-Sólido
gverdeocírculo:Punteada
rrojoXx-marca-.guion punto
ccian+más--La
mmagenta*estrella(ninguno)ninguna línea
yamarilloscuadrado
knegroddiamante
wblancovabajo triángulo
^hasta triángulo
lt;triángulo izquierda
>triángulo rectángulo
p5 puntos estrella
h6 puntos estrella

Recuerde que también puede utilizar estos estilos con otros tipos de parcelas. Por ejemplo, un gráfico de dispersión puede utilizar estos estilos para definir cada uno de los puntos de datos. En caso de duda, pruebe los estilos a ver si va a trabajar con su parcela particular.

Funciones IPython mágicos comunes

Es una especie de increíble pensar que IPython le ofrece la magia, pero eso es precisamente lo que se obtiene con las funciones mágicas. Una función de magia comienza ya sea con un% o %% señal. Aquellos con una obra% signo en el medio ambiente, y los que tienen una obra signo %% a nivel celular.

La siguiente lista le ofrece algunas de las funciones de magia más comunes y su propósito. Para obtener una lista completa, el tipo % QuickRef y pulse Intro en la consola IPython o echa un vistazo a la lista completa.

Función MagiaEscriba solo proporciona el estado?Descripción
%% timeit SinCalcula el mejor rendimiento tiempo para todas las instructionsin una célula, aparte de la que está situada en la misma línea celular como thecell magia (que por lo tanto podría ser un initializationinstruction).
%% writefileSinEscribe el contenido de una celda en el archivo especificado.
% aliasAsigna o muestra un alias de un comando del sistema.
% autocallPermite llamar a funciones sin incluir theparentheses. Los ajustes son Off, inteligente (por defecto), y completa. Ajuste theSmart aplica los paréntesis sólo si se incluyen anargument con la llamada.
% automagicPermite llamar a las funciones mágicas línea withoutincluding el signo%. La configuración es False (predeterminado) andTrue.
% cdCambia de directorio a una nueva ubicación de almacenamiento. También puede usethis comando para moverse a través de la historia de directorio o de changedirectories a un marcador.
% clsSinBorra la pantalla.
% coloresSinEspecifica los colores utilizados para mostrar withprompts texto asociados, el sistema de información y controladores de excepciones. Usted canchoose entre nocolor (blanco y negro), Linux (por defecto), andLightBG.
% configPermite configurar IPython.
% dhistMuestra una lista de directorios visitados durante el currentSession.
%archivo SinEmite el nombre del archivo que contiene el código fuente forthe objeto.
% histMuestra una lista de comandos de función mágicos emitidas durante thecurrent sesión.
% install_extSinInstala la extensión especificada.
%cargaSinLas cargas de código de aplicación de otra fuente, como un onlineexample.
% load_extSinCarga una extensión de Python usando su nombre de módulo.
% lsmagicMuestra una lista de los magicfunctions actualmente disponibles.
% matplotlibEstablece el procesador backend usado para parcelas. Utilizando el inlinevalue muestra la trama dentro de la célula para una Notebookfile IPython. Los valores posibles son: gtk ',' gtk3 ',' inline ',' nbagg ',' osx ',' ',' qt qt4 ',' QT5 ',' tk ', y' wx '.
%pegarSinPega el contenido del portapapeles en el IPythonenvironment.
% pdefSinMuestra cómo llamar al objeto (suponiendo que el iscallable objeto).
% PDOCSinMuestra la cadena de documentación para un objeto.
% pinfo SinMuestra información detallada sobre el objeto (a menudo más thanprovided por ayuda solo).
% pinfo2 SinMuestra información detallada adicional sobre el objeto (whenavailable).
% reload_extSinVuelve a cargar una extensión instalada anteriormente.
%fuente SinMuestra el código fuente para el objeto (suponiendo que thesource está disponible).
% timeitSinCalcula el mejor momento de rendimiento para una instrucción.
% unaliasSinElimina un alias creado previamente de la lista.
% unload_extSinDescarga el extensión especificada.

Scikit-learn Método Resumen

Scikit-learn es un punto focal para el trabajo de la ciencia de datos con Python, por lo que vale la pena saber que métodos más que usted necesita. La siguiente lista te da una breve descripción de los métodos más importantes que se utilizan para el análisis de datos.

  • feature_extraction.FeatureHasher

    Uso: Preparación de los datos

    Descripción: El truco de hash, lo que le permite adaptarse a un gran número de características en su conjunto de datos

  • preprocessing.Binarizer

    Uso: Preparación de los datos

    Descripción: Crear variables binarias (valores de características a 0 o 1)

  • preprocessing.Imputer

    Uso: Preparación de los datos

    Descripción: Los valores perdidos imputación

  • preprocessing.MinMaxScaler

    Uso: Preparación de los datos

    Descripción: Crear las variables vinculadas por un valor mínimo y máximo

  • preprocessing.OneHotEncoder

    Uso: Preparación de los datos

    Descripción: Transformar características enteros categóricos en unos binarios

  • preprocessing.StandardScaler

    Uso: Preparación de los datos

    Descripción: La estandarización de variables mediante la eliminación de la media y la ampliación a la unidad de la varianza

  • feature_extraction.text.CountVectorizer

    Uso: Preparación de los datos

    Descripción: Convertir documentos de texto en una matriz de datos de recuento

  • feature_extraction.text.HashingVectorizer

    Uso: Preparación de los datos

    Descripción: Directamente convertir su texto usando el truco de hash

  • feature_extraction.text.TfidfVectorizer

    Uso: Preparación de los datos

    Descripción: Crea un conjunto de datos de características TF-IDF.

  • feature_selection.RFECV

    Uso: La selección de características

    Descripción: Selección automática característica

  • decomposition.PCA

    Uso: Reducción de dimensionalidad

    Descripción: Análisis de componentes principales (PCA)

  • decomposition.RandomizedPCA

    Uso: Reducción de dimensionalidad

    Descripción: Análisis de componentes principales (PCA) usando SVD aleatorio

  • cross_validation.cross_val_score

    Uso: Fase de validación cruzada

    Descripción: Estimar la puntuación de validación cruzada

  • cross_validation.KFold

    Uso: Fase de validación cruzada

    Descripción: Dividir el conjunto de datos en pliegues k para la validación cruzada

  • cross_validation.StratifiedKFold

    Uso: Fase de validación cruzada

    Descripción: Validación estratificado que tiene en cuenta la distribución de las clases que predicen

  • cross_validation.train_test_split

    Uso: Fase de validación cruzada

    Descripción: Dividir los datos en capacitación y de prueba

  • grid_search.GridSearchCV

    Uso: Optimización

    Descripción: Búsqueda exhaustiva con el fin de maximizar un algoritmo de aprendizaje automático

  • linear_model.LinearRegression

    Uso: Predicción

    Descripción: Regresión lineal

  • linear_model.LogisticRegression

    Uso: Predicción

    Descripción: Lineal Regresión logística

  • neighbors.KNeighborsClassifier

    Uso: Predicción

    Descripción: Clasificación K-Vecinos

  • naive_bayes.MultinomialNB

    Uso: Predicción

    Descripción: Multinomial Na # 239-ve Bayes

  • metrics.accuracy_score

    Uso: Evaluación de soluciones

    Descripción: Puntuación de clasificación Precisión.

  • metrics.f1_score

    Uso: Evaluación de soluciones

    Descripción: Calcular la puntuación de F1, el equilibrio de la precisión y el recuerdo

  • metrics.mean_absolute_error

    Uso: Evaluación de soluciones

    Descripción: Error de regresión error absoluto promedio

  • metrics.mean_squared_error

    Uso: Evaluación de soluciones

    Descripción: Error de regresión error cuadrático promedio

  • metrics.roc_auc_score

    Uso: Evaluación de soluciones

    Descripción: Calcular área bajo la curva (AUC) de predicción de resultados




» » » » Python para la ciencia de datos para dummies