Dev - C++ - Me podrias ayudar a entenderlo

 
Vista:

Me podrias ayudar a entenderlo

Publicado por Isabel (1 intervención) el 07/01/2007 04:16:13
( Alguien me podria ayudar a entenderlo por favor )

Creacion de un programa para indexar un conjunto de documentos y poder buscar palabras o parejas de palabras que aparezcan dentro de los documentos indexados.
Por tanto, indexar un conjunto de documentos significa extraer las palabras que aparecen en dichos documentos y almacenarlas en un vector de palabras claves (un vector por documento).

Donde dispondrá de un conjunto de ficheros correspondientes a páginas web, que son los
documentos que hay que indexar. (almacen.tgz). Para evitar el análisis de las marcas HTML, el almacén ha sido convertido a ficheros de texto plano, sin ningún tipo de marca.
A la hora de obtener el vector de palabras clave de un documento a partir de la frecuencia de aparición de las mismas, hay que tener en cuenta que existen palabras muy frecuentes que no aportan prácticamente información, por ejemplo: preposiciones, conjunciones, pronombres, etc, . A estas palabras se las conoce como “stop words”. y no deben utilizarse como palabras clave válidas.

Después de este prepocesamiento, el programa debe extraer todas las palabras de todos los ficheros de texto, y crear un vector de palabras (uno por fichero) que contenga las palabras que aparecen con más frecuencia en ese fichero. El tamaño de esos vectores asumiremos que es fijo y toma el valor MAX_PAL.
Ejemplo de vector de palabra para el fichero fichero1.txt:
Banco Dinero Euros ….
45 34 20

Esto significa que la palabra “banco” aparece 45 veces en el fichero fichero1.txt y la palabra
“Dinero” aparece 34 veces..y así sucesivamente.
Tendremos un vector por fichero procesado, es decir, si mi banco de documentos contiene 100 documentos, tendremos 100 vectores de palabras frecuentes, uno por documento.

Estos vectores de palabras no son la estructura sobre la que se trabajará para las búsquedas,sino que simplemente nos servirán para crear la estructura definitiva que nos servirá para realizar búsquedas de forma eficiente . A esta estructura se le llama índice: estructura que contendrá para cada palabra relevante:
-
Palabra
-.Conjunto de ficheros donde aparece con la frecuencia en cada fichero
Veamos a continuación las funcionalidades que debe incorporar nuestro programa. Cada una de estas funcionalidades se explican con detalle después.
El programa funcionará con un menú que indicará las siguientes opciones:

1. Indexar los documentos. Crear los vectores de palabras frecuentes para cada documento y apoyarse en esos vectores para construir la estructura índice.
2. Guardar el índice creado en un fichero.
3. Buscar una palabra completa.
4. Buscar documentos donde aparece una pareja de palabras.
5. Visualizar la estructura índice creada.
6. Salir de la aplicación.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder

RE:Me podrias ayudar a entenderlo

Publicado por Tom (65 intervenciones) el 08/01/2007 16:01:31
Bueno, ¿qué es lo que no entiendes?
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar