¿Cómo lidiar con valores duplicados en sus datos

Los datos se almacenan en diferentes maneras en diferentes sistemas. Así que no es de extrañar que al recoger y consolidar datos de varias fuentes, es posible que los duplicados pop-up. En particular, lo que hace que un registro individual único es diferente para diferentes sistemas.

Un resumen de cuenta de inversión se une a un número de cuenta. Un resumen cartera podría ser almacenado a nivel individual o del hogar. Y las historias comerciales de todas esas cuentas se almacenan en el nivel de transacción individual.

Es importante tener claro lo que se supone diferenciar registros únicos en el archivo de datos. Por ejemplo, si se trata de un archivo de nivel de transacción, a continuación, los números de cuenta y los identificadores del hogar se duplicarán. Siempre y cuando usted entiende esto y está haciendo un análisis a nivel de transacción, se le multa.

Pero si usted está interesado en utilizar estos datos para analizar el número de cuentas en poder de cada hogar, que se ejecutará en problemas. Los hogares que comercian con más frecuencia tienen más registros que los que no comercian mucho. Usted necesita tener un archivo a nivel de cuenta.

Extracción de registros duplicados no es particularmente difícil. La mayoría de los paquetes estadísticos y los sistemas de bases de datos se han incorporado en los comandos de ese grupo Registros juntos. (De hecho, en el lenguaje SQL de base de datos, este comando se llama Agrupar por.)




» » » » ¿Cómo lidiar con valores duplicados en sus datos