PDF de programación - Diseño de un sistema de búsqueda de respuestas para diversos tipos de preguntas

Volver

<<>>

Diseño de un sistema de búsqueda de respuestas para diversos tipos de preguntas

Publicado el 14 de Enero del 2017

1.093 visualizaciones desde el 14 de Enero del 2017

375,3 KB

8 paginas

Creado hace 10a (11/09/2015)

Diseño de un sistema de búsqueda de respuestas para

diversos tipos de preguntas

Alejandra Carolina Cardoso, Agustina Bini y M. Alicia Pérez Abelleira1

1 Facultad de Ingeniería e Informática e IESIING. Universidad Católica de Salta

Campo Castañares s/n, A4400 Salta, Argentina

{acardoso,aperez}@ucasal.edu.ar,[email protected]

Abstract. Los sistemas de búsquedas de respuestas tienen como objetivo
responder de manera automática a las preguntas de un usuario expresadas en
lenguaje natural. Se trata de una aplicación muy relevante de las técnicas de
minería de textos, de interés creciente dada la gran cantidad de información no
estructurada disponible en todo tipo de organizaciones. Este trabajo describe la
arquitectura de un sistema que responde a preguntas de usuarios cuyas respues-
tas están en un corpus de más de ocho mil documentos que contienen resolucio-
nes académicas y administrativas de una universidad. El sistema comienza cla-
sificando las preguntas según el tipo de respuesta requerida, las analiza y trans-
forma en consultas a un motor de búsqueda semántica que devuelve fragmentos
del corpus de documentos que pueden contener la respuesta ordenados según su
relevancia. Finalmente el sistema extrae las respuestas de dichos fragmentos y
las presenta al usuario en su contexto textual. Este trabajo se centra especial-
mente en la descripción de las fases de clasificación de la pregunta y construc-
ción de la consulta.

Keywords: búsqueda de respuestas, minería de textos, UIMA.

1

Introducción

La búsqueda de respuestas (BR) tiene como objetivo dar respuestas en lenguaje natu-
ral a preguntas también en lenguaje natural. Aunque el problema de BR ha sido estu-
diado desde hace más de diez años, continúa siendo un desafío que incorpora varias
tareas del ámbito de la minería de textos, del procesamiento del lenguaje natural y
otras técnicas para poder (a) comprender adecuadamente las necesidades de informa-
ción de la pregunta, (b) obtener una lista de respuestas candidatas a partir de los do-
cumentos, y (c) filtrarlas en base a evidencia que justifique que cada una de esas res-
puestas es la correcta.

En [1] se presentó una primera aproximación a un sistema de BR que puede con-
testar preguntas factoides sobre un corpus de más de 8000 documentos que contienen
9 años de resoluciones rectorales de una universidad en distintos formatos (Word,
texto plano, PDF). Este sistema de BR está desarrollado sobre un buscador semántico
[2] que permite en las consultas no solamente palabras clave sino conceptos y relacio-
nes, determinados mediante el contexto de las palabras. El sistema preliminar respon-

ASAI 2015, 16º Simposio Argentino de Inteligencia Artificial. 44 JAIIO - ASAI 2015 - ISSN: 2451-758525día a preguntas de tipo “¿Quién” cuya respuesta es una persona. El presente trabajo
describe más exhaustivamente los componentes del sistema que permiten responder a
un espectro más amplio de preguntas.

Para la comprensión de las preguntas y extracción de las respuestas los sistemas de
BR han incluido diversos recursos lingüísticos de complejidad variable incluyendo
etiquetadores POS (part of speech), analizadores sintácticos, extractores de entidades
con nombre (NER), diccionarios, bases de datos léxico semánticas y ontologías, y
hasta técnicas de análisis semántico y contextual [3]. Las técnicas de análisis superfi-
cial, esto es, a niveles léxico y sintáctico¸ han sido a menudo efectivas y el presente
trabajo se apoya en este tipo de técnicas. Construir recursos más sofisticados es una
tarea compleja y no necesariamente llega a mejores resultados que justifiquen el es-
fuerzo empleado en el desarrollo y los tiempos de ejecución [4] [5].

La Sección 2 describe la arquitectura del sistema de búsqueda de respuestas y las
tres secciones siguientes sus componentes. El énfasis de este trabajo está en la catego-
rización de las preguntas del usuario y en su transformación en consultas adecuadas
para el motor de búsqueda semántica (Secciones 3 y 4). El artículo concluye evaluan-
do el desarrollo actual de este sistema y mencionando líneas de trabajo futuro.

2

Arquitectura del sistema de búsqueda de respuestas

Un sistema típico de búsqueda de respuestas supone una serie de procesos que co-
mienzan tomando la pregunta del usuario como entrada y terminan respondiendo con
una respuesta o una lista de respuestas priorizadas, con indicaciones de la fuente de la
información. La arquitectura propuesta en este trabajo responde a este paradigma de
facto para la búsqueda de respuestas [6] y está formado de los siguientes componen-
tes: análisis de la pregunta, que incluye su categorización y la construcción de la co-
rrespondiente consulta en un lenguaje adecuado para ser presentada a un motor de
búsqueda; recuperación de documentos en base a dicha consulta; extracción de las
respuestas candidatas relevantes, y presentación al usuario. La Fig. 1 muestra una
arquitectura con los componentes mencionados, que se describen en el resto de este
trabajo.

Fig. 1 Arquitectura básica para la búsqueda de respuestas.

Figura 1. Arquitectura básica para la búsqueda de respuestas.

ASAI 2015, 16º Simposio Argentino de Inteligencia Artificial. 44 JAIIO - ASAI 2015 - ISSN: 2451-758526Fig. 2 Arquitectura del sistema de gestión de información no estructurada

2.1 Antecedentes

La Fig. 2 muestra el sistema de gestión de la información no estructurada que sirve
como plataforma al sistema de búsqueda de respuestas y está aplicado al corpus men-
cionado [2]. El sistema está desarrollado sobre UIMA (Unstructured Information
Management Architecture), una arquitectura basada en componentes para construir
sistemas de procesamiento de información no estructurada [7]. En UIMA, el compo-
nente que contiene la lógica del análisis se llama anotador, que realiza una tarea espe-
cífica de extracción de información de un documento. Los anotadores que detectan de
entidades con nombre (NER) tales como personas, fechas, organizaciones, unidades
académicas contienen modelos aprendidos mediante campos aleatorios condicionales
(CRFs). El anotador que asigna una categoría al documento utiliza un modelo apren-
dido mediante una SVM. Existen 21 categorías que fueron obtenidas del personal
especializado en la elaboración de resoluciones. El entrenamiento y evaluación de
estos modelos está descripto en [8] y [2] respectivamente.

El resultado del análisis es un conjunto de archivos en formato XMI (XML Meta-
data Interchange) [9] con las partes relevantes del texto original y las anotaciones
mencionadas. Éstos se procesan para construir el índice de un motor de búsqueda.
Para más detalle sobre la arquitectura puede consultarse [1]

3

Categorización de la pregunta

Una forma sencilla de interpretar preguntas en lenguaje natural sería eliminar las de-
nominadas palabras vacías o stopwords y convertir el resto de la pregunta en una
consulta booleana. Sin embargo, esto puede desperdiciar información de utilidad para
reducir el alcance de la pregunta. Por ejemplo, eliminando la palabra “cuándo” de la
frase “¿Cuándo murió Güemes?” puede llevar a recuperar respuestas sobre cómo y
dónde, en lugar solamente respuestas con una fecha. Por ello el primer paso del siste-
ma de BR es categorizar la pregunta del usuario. La categoría es una pista del tipo de

ASAI 2015, 16º Simposio Argentino de Inteligencia Artificial. 44 JAIIO - ASAI 2015 - ISSN: 2451-758527información que se busca, por ejemplo, el nombre de una persona, una fecha, una
definición, etc. Determinar el dominio de la pregunta y el tipo de la respuesta buscada
son pasos esenciales en los sistemas de búsqueda de respuestas. Existen una variedad
de enfoques según el número de categorías determinadas, la estructura (plana o jerár-
quica) de la clasificación y la elección de las categorías propiamente dichas [4].

La clasificación de las preguntas se basó en el conjunto de entidades con nombre y
otros elementos que los anotadores son capaces de detectar en el corpus, y que en
general son el foco de las respuestas esperadas (Tabla 1). Para cada una de las entida-
des o anotaciones se determinó el patrón de comienzo de la pregunta, que en general
incluye un pronombre interrogativo, ya que se trata de preguntas factoides. Este pa-
trón o regla, aplicado a la pregunta, determina su categoría.

Tabla 1. Clasificación de las preguntas según el tipo de respuesta esperada.

Respuesta esperada

Persona

Institución

Unidad Académica

Carrera

Fecha

Resolución

Título

Pregunta

¿Quién … ¿A quién … ¿Quiénes …

¿ A qué … ¿Qué institución … ¿Qué empresa …

¿Qué facultad …
¿Qué unidad académica … ¿En qué unidad académica …
¿Qué escuela … ¿En qué escuela …
¿Qué sede … ¿En qué sede …
¿Qué delegación …¿En qué delegación...

¿Qué carrera … ¿En qué carrera …

¿Cuándo … ¿En qué mes … ¿En qué año … ¿En qué fecha …

¿En qué resolución… ¿Cuál es el número de la resolución en que…

¿Qué título…

4

Construcción de la consulta

Tras determinar el tipo de la pregunta del usuario ésta se convierte en una consulta
en el lenguaje XML Fragments [10], para el motor de búsqueda, una XML sub-
especificada que combina consultas de palabras con consultas de información anotada
usando la sintaxis de las anotaciones de UIMA. Primero se incluye en la consulta un
término correspondiente a la entidad buscada (Tabla 1). Por ejemplo, si la pregunta
comienza con “¿Quién”, se espera que la respuesta sea una persona, y así parte de la
consulta será la expresión <Persona>.</