Cómo identificar los datos para el análisis predictivo

Para su proyecto de análisis predictivo, que necesitará para identificar fuentes apropiadas de datos, agrupar los datos de esas fuentes, y lo puso en un formato estructurado, bien organizado. Estas tareas pueden ser muy difícil y probablemente requerirá una cuidadosa coordinación entre los diferentes administradores de datos en toda la organización.

Usted también tendrá que seleccionar las variables que vas a analizar. Este proceso debe tener limitaciones de los datos, las limitaciones del proyecto, y los objetivos de negocio en consideración.

Las variables que seleccione deben tener poder predictivo. Además, es necesario tener en cuenta las variables que son valiosos y viable para su proyecto dentro del presupuesto y plazos. Por ejemplo, si usted está analizando las transacciones bancarias en una investigación criminal, registros telefónicos para todas las partes involucradas pueden ser relevantes para el análisis, pero no se puede acceder a los analistas.

Prepárese para pasar un tiempo considerable en esta fase del proyecto. La recolección de datos, análisis de datos y el proceso de abordar el contenido de datos, la calidad, y la estructura pueden sumarse a una lista de cosas por hacer tiempo.

Durante el proceso de identificación de los datos, que ayuda a comprender mejor sus datos y su propiedades- este conocimiento le ayudará a elegir qué algoritmo a utilizar para construir su modelo. Por ejemplo, los datos de series de tiempo pueden ser analizados por los algoritmos de clasificación de regresión algoritmos- se puede utilizar para analizar los datos discretos.

La selección de variables se ve afectada por lo bien que entender los datos. No se sorprenda si usted tiene que mirar y evaluar cientos de variables, por lo menos al principio. Afortunadamente, a medida que trabaja con esas variables y empezar ganando ideas clave, usted comienza a estrechar hacia abajo a unas pocas docenas. Además, le espera la selección de variables para cambiar como su comprensión de los cambios en los datos de todo el proyecto.

Puede que le resulte beneficioso para construir un inventario de datos que se puede utilizar para realizar un seguimiento de lo que sabe, lo que no sabe, y lo que podría estar perdiendo. El inventario de datos debe incluir un listado de los diversos elementos de datos y los atributos que son relevantes en las etapas subsiguientes del proceso.

Por ejemplo, es posible que desee documentar si falta algún segmento códigos postales o registros para un período específico de tiempo que falta.

Su salida al pueblo por el conocimiento del negocio (también conocido como expertos de conocimiento de dominio) Le ayudará a seleccionar las variables clave que pueden influir positivamente en los resultados de su proyecto. Ellos pueden ayudar a explicar a usted la importancia de estas variables, así como dónde y cómo obtenerlos, entre otra información valiosa.




» » » » Cómo identificar los datos para el análisis predictivo