Depuracion Tabla SQL Server
Publicado por Maria Emilia (1 intervención) el 26/07/2017 09:33:32
Buenas tardes!
Mi problema es el siguiente:
Tengo una tabla con un campo llamado titulo_universitario que surgio en base a una encuesta realizada. Tiene aproximadamente un millon de registros.
El problema es que, como la encuesta se hizo 'a mano' y no con un menu desplegable o con opciones estandarizadas, cada uno puso el titulo como quiso. Por ejemplo: Doctor en ciencias economicas, Doc. En Cs. Eco, Doctorado en Ciencias, y asi con muchas formas para llamar a un mismo titulo.
Tengo un archivo con los titulos que deberian corresponder a todos los registros, exporte el archivo a sql y lo hice tabla.
Realice un left join con la tabla de la encuesta y claro, la mayoria no condice con ninguno de los titulos estandarizados.
Utilice DQS para realizar la limpieza pero la gran mayoria tiene un bajo porcentaje de coincidencia debdo a que los titulos en muchos casos son largos y no coinciden en casi nada, con lo cual la mayoria de los valores los envia a 'Sugeridos' o 'Nuevos' y tengo que cambiarlos practicamente a mano.
Quisiera saber si alguno ya se encontro con un problema similar y me podria ayudar con una mejor solucion un poco mas automatica ya que son aprox. un millon de registros para depurar.
Desde ya, muchisimas gracias!
Maria
Mi problema es el siguiente:
Tengo una tabla con un campo llamado titulo_universitario que surgio en base a una encuesta realizada. Tiene aproximadamente un millon de registros.
El problema es que, como la encuesta se hizo 'a mano' y no con un menu desplegable o con opciones estandarizadas, cada uno puso el titulo como quiso. Por ejemplo: Doctor en ciencias economicas, Doc. En Cs. Eco, Doctorado en Ciencias, y asi con muchas formas para llamar a un mismo titulo.
Tengo un archivo con los titulos que deberian corresponder a todos los registros, exporte el archivo a sql y lo hice tabla.
Realice un left join con la tabla de la encuesta y claro, la mayoria no condice con ninguno de los titulos estandarizados.
Utilice DQS para realizar la limpieza pero la gran mayoria tiene un bajo porcentaje de coincidencia debdo a que los titulos en muchos casos son largos y no coinciden en casi nada, con lo cual la mayoria de los valores los envia a 'Sugeridos' o 'Nuevos' y tengo que cambiarlos practicamente a mano.
Quisiera saber si alguno ya se encontro con un problema similar y me podria ayudar con una mejor solucion un poco mas automatica ya que son aprox. un millon de registros para depurar.
Desde ya, muchisimas gracias!
Maria
Valora esta pregunta
0