PDF de programación - TesisZenon

Imágen de pdf TesisZenon

TesisZenongráfica de visualizaciones

Actualizado el 28 de Julio del 2017 (Publicado el 14 de Enero del 2017)
718 visualizaciones desde el 14 de Enero del 2017
1,1 MB
150 paginas
Creado hace 20a (04/03/2004)
Índice.

1.- Objetivos y antecedentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.- Lenguaje e informática.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.- Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.- Trabajos previos del Grupo de Estructura de Datos.

. . . . . . 16

2.- Planteamiento y desarrollo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.- Detección de neologismos. . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.- Relacionadas con la palabra.

. . . . . . . . . . . . . . . . . . . . . . . . 24

2.3.- Medidas cuantitativas.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4.- En la proximidad de la sintaxis.

. . . . . . . . . . . . . . . . . . . . . . 29

3.- Arquitectura de DAWeb.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.1.- Módulo de recuperación de documentos. . . . . . . . . . . . . . . . 31

3.1.1.-El módulo distribuidor.

. . . . . . . . . . . . . . . . . . . . . . 32

Página 1 de 150

3.1.2.-Los módulos recuperadores. . . . . . . . . . . . . . . . . . . 35

3.2.- Módulo de análisis de documentos.

. . . . . . . . . . . . . . . . . . 40

3.3.- El Mostrador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4.- El módulo de configuración. . . . . . . . . . . . . . . . . . . . . . . . . 50

4.- Arquitectura de NAWeb. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1.- El módulo de lematización. . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2.- El módulo de desambiguación. . . . . . . . . . . . . . . . . . . . . . . 56

4.3.- Módulo de clasificación.

. . . . . . . . . . . . . . . . . . . . . . . 60

5.- Módulos comunes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.- Módulo de extracción de texto. . . . . . . . . . . . . . . . . . . . . . . 62

5.2.- Módulo selector de palabras. . . . . . . . . . . . . . . . . . . . . . . . . 69

5.3.- Módulo de análisis morfológico. . . . . . . . . . . . . . . . . . . . . . 70

5.4.- Módulo optimizador de búsqueda morfológica.

. . . . . . . . . 71

6.- Interfaz de DAWeb. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Página 2 de 150

7.- Interfaz de NAWeb.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.1.- Zona de menús y barras de herramientas. . . . . . . . . . . . . . . . 94

7.2.- Zona de vistas y edición.

. . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.3.- Zona de análisis y datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7.4.- Sincronización de la información mostrada.

. . . . . . . . . . . 111

8.- Conclusiones y perspectivas futuras.

. . . . . . . . . . . . . . . . . . . . . . . . 116

9.- Anexo I: Correspondencia entre secuencias alfabéticas y caracteres.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

10.- Anexo II: Etiquetas HTML.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

11.- Referencias.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

11.1.- Libros y artículos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

11.2.- Páginas web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Página 3 de 150

Página 4 de 150

1.- Objetivos y antecedentes.

El objetivo general de la presente tesis consiste en obtener una estación

lexicológica orientada a Internet que integre un conjunto de aplicaciones

informáticas especializadas en tareas de análisis de textos en documentos

electrónicos disponibles en la metarred. En este propósito confluyen, de una parte,

Internet como ente generador y suministrador de recursos lingüísticos, de otra, la

investigación lingüística como cliente y beneficiaria del nuevo nicho de

oportunidades de estudio abierto por la red y, de una tercera, las técnicas

informáticas de gestión y presentación de información compleja como vehículo de

intermediación y catalización entre las dos anteriores.

1.1.- Lenguaje e informática.

La relación de la informática con el lenguaje no es nueva. El que se considera

el primer ordenador electrónico de propósito general —ENIAC— data de 1 946 y

la que parece ser la aplicación más antigua reconocible en el campo del

procesamiento del lenguaje natural —un sistema de búsqueda en diccionario

desarrollado en el Birkbeck College de Londres— data de 1 948. Con la traducción

automática arranca el interés por el tema en EEUU en 1 949; en esa época se creía

Página 5 de 150

posible resolver la traducción del lenguaje natural por extensión de los problemas

de criptografía —bastante desarrollados a raíz de la segunda guerra mundial. El

interés americano se extendió rápidamente a Francia, Inglaterra y la URSS; estuvo

primero centrado en la traducción del alemán —por la ingente cantidad de

documentos científicos capturados al terminar la guerra— y posteriormente en el

ruso —consecuencia de la guerra fría. Sin embargo, los enormes esfuerzos en esta

época resultaron improductivos por mor de la ingenuidad del planteamiento inicial,

ya que los lenguajes naturales son extraordinariamente más complejos que cualquier

código criptográfico. Tal reconocimiento desplaza el foco de atención hacia la

investigación lingüística como disciplina capaz de desbrozar esa complejidad y

proporcionar el conocimiento adecuado para conseguir las metas propuestas.

La interacción entre la investigación lingüística y la informática puede

considerarse mutua. De un lado, el trabajo del lingüista es indispensable para acercar

los grandes objetivos del procesamiento del lenguaje natural y que el ordenador

"entienda" y se exprese al menos en un subconjunto amplio de dicho lenguaje; por

otro, las herramientas desarrolladas por la informática pueden ayudar de forma

importante al lingüista en la realización de su labor —la colaboración entre ambas

disciplinas redunda en que los útiles mejorarán y se adaptarán más a las necesidades

reales del investigador. El abanico de herramientas que la informática ofrece abarca

Página 6 de 150

diversos grados de complejidad y especificidad: desde el procesador de textos hasta

las estaciones de trabajo lexicológicas.

Aunque no da mucho juego como herramienta de investigación lingüística,

un simple procesador de textos ya es una herramienta útil, al menos en la elaboración

de documentos y resultados. Los sistemas de gestión de bases de datos (SGBD)

constituyen una herramienta informática consolidada y pueden jugar un papel

bastante relevante en la organización de información lingüística. En [MALD98 ] se

lee: "...yo quería trabajar con fichas informáticas equivalentes a las fichas de toda

la vida, ordenadas alfabéticamente en aquellas cajas verdes de siempre... Es decir,

yo estaba demandando una base de datos" , y en [ALVA98] se afirma: "El paso más

adelantado en la redacción de diccionarios asistida por ordenador lo constituyen las

bases de datos". De especial relevancia en muchos aspectos de la investigación

lingüística son los sistemas de hipertexto; se hace referencia a ellos en [MORR99],

donde se analizan las dos formas en que la informática se incorpora al campo de la

crítica textual: aparece como consecuencia natural de las corrientes que, en busca de

la máxima objetividad y rigor en el proceso de depuración de la obra, preconizaban

el acercamiento de la literatura al campo de las ciencias exactas —en tal concepción

de la crítica textual, existe un importante aspecto mecánico en el que la informática

puede jugar un papel primordial como herramienta auxiliar en la fijación y

elaboración de ediciones.

Página 7 de 150

En consecuencia, se dispone de programas útiles para la colación y filiación

de textos, tanto desarrollados específicamente como tomados de otras áreas de

aplicación, así como de otros que ayudan a preparar el texto para la imprenta; no

obstante, ninguna de las metodologías desarrolladas consigue resultados congruentes

de forma automática sin intervención final del especialista. No parece la única

—quizás ni siquiera la principal— manera de aplicar la informática al campo de la

crítica textual ni ahora ni en un futuro. Otras corrientes descartan por inviable la

búsqueda de la versión "ideal" y se decantan por la publicación de cada uno de los

documentos que forman la historia de una obra literaria —lo que resulta complicado

en formato impreso tradicional—; el hipertexto parece la herramienta informática

adecuada para proporcionar una visión integradora de la obra, aunque puede resultar

inútil si se limita a un simple "amontonamiento" de versiones. La aportación de la

informática debe conducir a la superación del enfrentamiento entre ambas posturas:

reunir en formato electrónico el texto ideal y el proceso que permite llegar hasta él,

de modo que el lector pueda elaborar su propio juicio.

Cuando el planteamiento evoluciona hasta integrar un conjunto de

herramientas orientadas a la investigación lingüística y agrupadas en un entorno de

trabajo específico, aparecen las llamadas "estaciones de trabajo" —término tomado

del inglés ‘workstation’ que se emplea para designar un sistema de ‘hardware’ y

‘software’ integrados, relativamente potente y que funciona como herramienta

Página 8 de 150

centralizadora del trabajo personal de un investigador o desarrollador. En [MILL99]

se describe una estación de trabajo filológica como "un entorno informático

diseñado para manejar textos aislados o en conjunto y que contiene: 1) los datos,

2) las herramientas para su utilización y 3) la plataforma de desarrollo de la
  • Links de descarga
http://lwp-l.com/pdf563

Comentarios de: TesisZenon (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad