Cómo convertir los datos en bruto en una matriz de análisis predictivo

Antes de poder extraer grupos de elementos de datos similares de su conjunto de datos para su proyecto de análisis predictivo, puede que tenga que representar los datos en un formato tabular conocido como matriz de datos

Conteúdo

¿cómo crear una matriz de análisis predictivo de los términos en los documentos
Fundamentos de la selección de términos de análisis predictivo

. Se trata de un paso de preprocesamiento que viene antes de la agrupación de datos.

¿Cómo crear una matriz de análisis predictivo de los términos en los documentos

Supongamos que el conjunto de datos que usted está a punto de analizar está contenida en un conjunto de documentos de Microsoft Word. Lo primero que hay que hacer es convertir el conjunto de documentos en una matriz de datos. Varias herramientas comerciales y de código abierto pueden manejar esa tarea, produciendo una matriz, en la que cada fila corresponde a un documento en el conjunto de datos. Ejemplos de estas herramientas incluyen RapidMiner y paquetes texto mineras R.

LA documento es, en esencia, un juego de palabras. LA término es un conjunto de una o varias palabras.

Cada término que un documento contiene se menciona una vez o varias veces en el mismo documento. El número de veces que un término se menciona en un documento puede ser representado por frecuencia de los términos (TF), un valor numérico.

Construimos la matriz de términos en el documento de la siguiente manera:

Los términos que aparecen en todos los documentos se enumeran en la fila superior.
Títulos de los documentos se enumeran abajo de la columna de la izquierda
Los números que aparecen dentro de las células de la matriz corresponden a la frecuencia de cada término.

Por ejemplo, Documento A se representa como conjunto de números (5,16,0,19,0,0.) Donde 5 corresponde al número de veces que el término análisis predictivo se repite, 16 corresponde al número de veces Ciencias de la Computación se repite, y así sucesivamente. Esta es la forma más sencilla de convertir un conjunto de documentos en una matriz.

Predictive Analytics	Ciencias de la Computación	Aprendizaje	Clustering	2013	Antropología

El documento A	5	16	0	19	0	0
Documento B	8	6	2	3	0	0
Documento C	0	5	2	3	3	9
Documento D	1	9	13	4	6	7
Documento E	2	16	16	0	2	13
Documento F	13	0	19	16	4	2

Fundamentos de la selección de términos de análisis predictivo

Uno de los retos en los documentos de texto de clustering es determinar cómo seleccionar las mejores condiciones para representar a todos los documentos de la colección. ¿Qué tan importante es un término en una colección de documentos se puede calcular de distintas maneras.

Si, por ejemplo, se cuenta el número de veces que un término se repite en un documento y comparar ese total con la frecuencia con que se repite en toda la colección, se obtiene una idea de la importancia de la palabra en relación con otros términos.

Basando la importancia relativa de un término en su frecuencia en una colección es a menudo conocido como ponderación. El peso que se asigne puede basarse en dos principios:

Términos que aparecen varias veces en un documento se ven favorecidos sobre los términos que aparecen sólo una vez.
Términos que se utilizan en relativamente pocos documentos son favorecidos sobre los términos que se mencionan en todos los documentos.

Si (por ejemplo) el término siglo se menciona en todos los documentos en su conjunto de datos, entonces no puede ser que considere asignándole el peso suficiente para tener una columna propia en la matriz.

Del mismo modo, si usted está tratando con un conjunto de datos de los usuarios de una red social en línea, usted puede convertir fácilmente ese conjunto de datos en una matriz. ID de usuario o nombres ocuparán el rows- las columnas enumerarán las características que mejor describen esos usuarios.

Sobre el autor

Cómo agrupar por vecinos más cercanos en el análisis predictivo

Los vecinos más cercanos es un simple algoritmo ampliamente utilizado en el análisis predictivo para agrupar los datos mediante la asignación de un elemento a un grupo por determinar qué otros elementos son más similares a la misma. Un uso…

Cómo ejecutar los datos de prueba y evaluar un modelo de aprendizaje supervisado svm

Aprendizaje supervisado es una tarea de aprendizaje automático que aprende de los datos de análisis predictivo que ha sido etiquetados. Una manera de pensar sobre el aprendizaje supervisado es que el etiquetado de los datos se realiza bajo la…

Cómo visualizar el análisis predictivo "datos brutos

Una imagen vale más que mil palabras - especialmente cuando usted está tratando de conseguir un buen control sobre sus datos de análisis predictivos. En la etapa de pre-procesamiento, mientras que usted se está preparando sus datos, es una…

Editar propiedades de un documento en SharePoint 2010

Dentro de SharePoint 2010, puede utilizar el menú Edición de un documento o la cinta de opciones para ver y editar las propiedades de un documento. De forma predeterminada, SharePoint 2010 sólo pide estas tres propiedades:Nombre: El nombre de…

Administrar el contenido con conjuntos de SharePoint de documentos en línea

En SharePoint Online, uno de la suite de productos de Microsoft Office 365, un conjunto de documentos que permite a los documentos agrupar en base a unos criterios y luego trabajar con el grupo de documentos como una sola entidad.Por ejemplo, usted…

Conozca a la característica de combinación de correspondencia de Word 2007

Correo Merge es una característica de Word 2007 que le permite tomar un solo documento, como una carta, revuelve en una lista de nombres y datos, y combinar (fusionar) todo en un conjunto final de documentos, cada uno de los cuales es personalizado…

El análisis estadístico con excel para dummies

Excel puede ayudarle a hacer todo tipo de cálculos. He aquí una selección de funciones de hoja de estadísticas de Excel. Cada uno de ellos devuelve un valor en una celda seleccionada.Tendencia central y variabilidadFunciónLo que…

C ++ de programación: las operaciones en una lista entera

Algunos programas de C ++ pueden hacer frente a los datos, ya que llega y prescindir de ella. La mayoría de los programas, sin embargo, deben almacenar datos para su posterior procesamiento. Una estructura que se utiliza para almacenar datos es…

¿Cómo crear una trama de datos a partir de una matriz en la r

Puede crear una trama de datos a partir de una matriz en R. Echa un vistazo a la cantidad de canastas anotadas por la abuela y su amiga Geraldine. Si crea una matriz baskets.team con el número de cestas tanto para damas, se obtiene lo siguiente:>…

Copie una matriz a otra en la TI-83 Plus

Hay varias situaciones en las que es posible que desee copiar el contenido de una matriz a otra en la TI-83 Plus calculadora gráfica. Una de ellas es cuando se quiere definir una nueva matriz mediante la adición de filas y columnas de una matriz…

Cómo multiplicar matrices uno por el otro

Multiplicando las matrices es muy útil cuando resolver sistemas de ecuaciones. Esto es porque se puede multiplicar una matriz por su inversa en ambos lados del signo igual para obtener finalmente la matriz variable en un lado y la solución para el…

Messing con preguntas de la matriz en la prueba de matemáticas acto

De vez en cuando el acto puede deslizarse un problema matriz en la Prueba de Matemáticas. Si usted ve uno, no se asuste. Son fáciles de tratar al revisar el enfoque.Una matriz es simplemente un conjunto de valores. Aunque se pueden realizar varias…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo convertir los datos en bruto en una matriz de análisis predictivo