Scikit-learn es un punto focal para el trabajo de la ciencia de datos con Python, por lo que vale la pena saber que métodos más que usted necesita. La siguiente lista te da una breve descripción de los métodos más importantes que se utilizan para el análisis de datos.
feature_extraction.FeatureHasher
Uso: Preparación de los datos
Descripción: El truco de hash, lo que le permite adaptarse a un gran número de características en su conjunto de datos
preprocessing.Binarizer
Uso: Preparación de los datos
Descripción: Crear variables binarias (valores de características a 0 o 1)
preprocessing.Imputer
Uso: Preparación de los datos
Descripción: Los valores perdidos imputación
preprocessing.MinMaxScaler
Uso: Preparación de los datos
Descripción: Crear las variables vinculadas por un valor mínimo y máximo
preprocessing.OneHotEncoder
Uso: Preparación de los datos
Descripción: Transformar características enteros categóricos en unos binarios
preprocessing.StandardScaler
Uso: Preparación de los datos
Descripción: La estandarización de variables mediante la eliminación de la media y la ampliación a la unidad de la varianza
feature_extraction.text.CountVectorizer
Uso: Preparación de los datos
Descripción: Convertir documentos de texto en una matriz de datos de recuento
feature_extraction.text.HashingVectorizer
Uso: Preparación de los datos
Descripción: Directamente convertir su texto usando el truco de hash
feature_extraction.text.TfidfVectorizer
Uso: Preparación de los datos
Descripción: Crea un conjunto de datos de características TF-IDF.
feature_selection.RFECV
Uso: La selección de características
Descripción: Selección automática característica
decomposition.PCA
Uso: Reducción de dimensionalidad
Descripción: Análisis de componentes principales (PCA)
decomposition.RandomizedPCA
Uso: Reducción de dimensionalidad
Descripción: Análisis de componentes principales (PCA) usando SVD aleatorio
cross_validation.cross_val_score
Uso: Fase de validación cruzada
Descripción: Estimar la puntuación de validación cruzada
cross_validation.KFold
Uso: Fase de validación cruzada
Descripción: Dividir el conjunto de datos en pliegues k para la validación cruzada
cross_validation.StratifiedKFold
Uso: Fase de validación cruzada
Descripción: Validación estratificado que tiene en cuenta la distribución de las clases que predicen
cross_validation.train_test_split
Uso: Fase de validación cruzada
Descripción: Dividir los datos en capacitación y de prueba
grid_search.GridSearchCV
Uso: Optimización
Descripción: Búsqueda exhaustiva con el fin de maximizar un algoritmo de aprendizaje automático
linear_model.LinearRegression
Uso: Predicción
Descripción: Regresión lineal
linear_model.LogisticRegression
Uso: Predicción
Descripción: Lineal Regresión logística
neighbors.KNeighborsClassifier
Uso: Predicción
Descripción: Clasificación K-Vecinos
naive_bayes.MultinomialNB
Uso: Predicción
Descripción: Multinomial Na # 239-ve Bayes
metrics.accuracy_score
Uso: Evaluación de soluciones
Descripción: Puntuación de clasificación Precisión.
metrics.f1_score
Uso: Evaluación de soluciones
Descripción: Calcular la puntuación de F1, el equilibrio de la precisión y el recuerdo
metrics.mean_absolute_error
Uso: Evaluación de soluciones
Descripción: Error de regresión error absoluto promedio
metrics.mean_squared_error
Uso: Evaluación de soluciones
Descripción: Error de regresión error cuadrático promedio
metrics.roc_auc_score
Uso: Evaluación de soluciones
Descripción: Calcular área bajo la curva (AUC) de predicción de resultados