SQL - Depuracion Tabla SQL Server

 
Vista:

Depuracion Tabla SQL Server

Publicado por Maria Emilia (1 intervención) el 26/07/2017 09:33:32
Buenas tardes!

Mi problema es el siguiente:

Tengo una tabla con un campo llamado titulo_universitario que surgio en base a una encuesta realizada. Tiene aproximadamente un millon de registros.

El problema es que, como la encuesta se hizo 'a mano' y no con un menu desplegable o con opciones estandarizadas, cada uno puso el titulo como quiso. Por ejemplo: Doctor en ciencias economicas, Doc. En Cs. Eco, Doctorado en Ciencias, y asi con muchas formas para llamar a un mismo titulo.

Tengo un archivo con los titulos que deberian corresponder a todos los registros, exporte el archivo a sql y lo hice tabla.

Realice un left join con la tabla de la encuesta y claro, la mayoria no condice con ninguno de los titulos estandarizados.

Utilice DQS para realizar la limpieza pero la gran mayoria tiene un bajo porcentaje de coincidencia debdo a que los titulos en muchos casos son largos y no coinciden en casi nada, con lo cual la mayoria de los valores los envia a 'Sugeridos' o 'Nuevos' y tengo que cambiarlos practicamente a mano.

Quisiera saber si alguno ya se encontro con un problema similar y me podria ayudar con una mejor solucion un poco mas automatica ya que son aprox. un millon de registros para depurar.



Desde ya, muchisimas gracias!



Maria
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de Isaias
Val: 2.542
Oro
Ha mantenido su posición en SQL (en relación al último mes)
Gráfica de SQL

Depuracion Tabla SQL Server

Publicado por Isaias (1921 intervenciones) el 27/07/2017 17:19:31
No hay una formula magica para realizar la limpieza de tus datos, lo mas cercano seria que sacaras un DISTINCT de tu campo y ahora si meterlo a un modelo de DQS.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar