Visual Basic - Buscar frase en un conjunto de archivos RTF/HTML

Life is soft - evento anual de software empresarial
 
Vista:

Buscar frase en un conjunto de archivos RTF/HTML

Publicado por Luigi (79 intervenciones) el 14/07/2003 19:54:43
Tengo una consulta generica que hacer...quisiera ver que me recomirendan que haga...ya que pienso que debe haber una mejor forma de trabajar esto...
Tengo una tabla en MySQL O SQLServer donde tengo los nombres y las refetrencias a una direccion donde se encuentran un conjunto de archivos RTF/THML..
Lo q quiero es buscar todos los archivos que tienen en su contenido una frase que yo doy y que me arroje los documentos que tiene la frase....Algo asi como cuando buscas un termino en el Buscar del Windows....tengo mas de 70000 documentos....

Ahora mi otra opcion - que es la q creo poder hacer- porque se como hacerlo mas o menos....es pasar el contenido de cada documento a la Base de Datos...que consideraciones debo tener para hacer esto...
mediante un proceso,....que tipo de campo debo utilizar el MySQL y SQL Server?....tengo una la idea de como hacer esto pero necesito sugerencias....
Gracias...
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder

RE:Buscar frase en un conjunto de archivos RTF/HTM

Publicado por bla (230 intervenciones) el 14/07/2003 22:16:20
Si tienes 70000 ficheros no te recomiendo la primera solución, abrir fichero a fichero y revisar su contenido cada vez que quieras buscar algo puede ser eterno.
La segunda solución es válida pero seguramente necesitarás mucho espacio en la base de datos, y la velocidad tampoco será muy grande.
Si puedes y quieres es mejor solución crearte en sqlserver un índice de palabras, de modo que para cada palabra tengas un listado de los ficheros en los que aparece (puedes quitar las palabras de dos y tres letras y las que aparezcan en todos los archivos, incluso si quieres puedes quitar las palabras que aparezcan en más del 1% de ficheros, de este modo te quitarás un montón de palabras que no dicen nada del documento. Y por cada palabra del índice tendrás un máximo de 700 ficheros en lo que aparece, más que suficiente para cualquier lector humano.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

RE:sigue

Publicado por bla (230 intervenciones) el 14/07/2003 22:23:26
claro que tendrías que aceptar no buscar frases sino palabras y que en algunos casos el usuario te pida buscar por una palabra que tu has rechazado y tengas que decirle que no sabes si aparece en más de 700 ficheros o no aparece en ninguno. Si el usuario insiste siempre podrías realizar una búsqueda exhaustiva fichero a fichero para ese caso.
Por cierto para los rtf en todos los casos quita las marcas propias del lenguaje rtf antes de almacenarlos; si usas mi sugerencia seguramente se quitarán sólos.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar