El sistema SARE-Bi de catalogación y recuperación de
documentos multilingües
Díaz Labrador, JosuKa*, Abaitua Odriozola, Joseba+, Jacob Taquet, Inés*, Quintana
Hernández, Fernando*
*Facultad de Ingeniería, +Facultad de Filosofía y Letras, Universidad de Deusto
Apartado 1 – 48080 BILBAO
[josuka, ines, fquintan]@eside.deusto.es,
[email protected]
Araolaza, Garikoitz
CodeSyntax
BIC-Berrilan. Azitain Poligonoa P3 E2. 20600 EIBAR
[email protected]
SARE-Bi es un sistema de gestión integral de documentos multilingües, que está basado en
esquemas de descripción de metadatos que provienen de la anotación de corpora textuales
(TEI), de la traducción asistida por ordenador (TMX) y de la localización de software (XLIFF).
Todos estos modelos son dialectos de XML que se solapan y complementan de diversas
maneras. Dichos estándares se han incorporado y adaptado a un conocido sistema de
publicación web (Zope), resultando un entorno cooperativo en que usuarios con diferentes roles
(redactores, traductores, administradores) pueden llevar a cabo el ciclo completo de generación
y traducción de nuevos documentos, mediante la reutilización de los ya existentes en el sistema.
Palabras clave: Catalogación y recuperación de información, gestión de contenidos
multilingües, bases de datos documentales, traducción asistida, TEI, TMX.
1. INTRODUCCIÓN
Una de las consecuencias de la proliferación
de
información publicada en Internet en
formatos y dialectos sucedáneos de HTML ha
sido la acumulación caótica de contenidos que
dificulta gravemente la gestión y recuperación
de información relevante. En los últimos años
se han desarrollado propuestas que tratan de
paliar este problema.
Una línea importante de investigación ha
aplicado sistemas con conocimiento lingüístico
que tratan de precisar y acotar, por un lado, el
resultado de los buscadores según la acepción
más adecuada del término de consulta y de
ampliar, por otro, la búsqueda bien a términos
semánticamente afines, o bien a textos en otros
idiomas [9].
Otra línea ha abordado el problema desde las
posibilidades de aplicar a
los contenidos
publicados en la red la noción de metadato [12,
6]. La apuesta por los metadatos ha ido
multiplicando adeptos en los últimos años,
sobre todo tras el desarrollo de XML como
alternativa a HTML y el espaldarazo que ha
supuesto la iniciativa de web semántica [1, 14,
4].
En esta comunicación se presenta el sistema
SARE-Bi de gestión integral de contenidos
multilingües, que está basado en esquemas de
descripción de metadatos que provienen de la
anotación de corpora textuales (TEI [10]), de la
traducción asistida por ordenador (TMX [7]) y
de la localización de software (XLIFF [8]).
Todos estos modelos son dialectos de XML que
se solapan y complementan de diversas
maneras. Dichos estándares se han incorporado
y/o adaptado a un conocido sistema de
publicación web (Zope [15]).
En las siguientes secciones se recogen, por
este orden, la especificación de SARE-Bi y el
análisis de situaciones que pretende resolver, la
descripción conceptual del sistema, después
unas breves ideas de su funcionamiento y su
implementación, y finalmente, mejoras que
están plantedas para un muy próximo futuro.
2. ESPECIFICACIÓN Y PROPÓSITO
la
SARE-Bi es un sistema de procesamiento,
clasificación y recuperación de documentos
multilingües, cuyo propósito es facilitar a los
usuarios
tareas
relacionadas con la generación y traducción de
nuevos documentos, a través de la reutilización
de los ya existentes.
realización
Aunque en principio no parece haber
dificultad
teórica en aplicar el sistema a
documentos de cualquier extensión o ámbito, lo
de
las
se
es
que
diseñó
pensando
cierto
primordialmente en documentos de tamaño
pequeño o mediano del ámbito administrativo,
es decir, documentos
internos de una
organización con un entorno multilingüe. De
hecho, en estos momentos, el sistema SARE-Bi
ya está siendo usado en la Universidad de
Deusto con un corpus de documentos de
distinta índole (avisos, cartas, convocatorias a
reunión, normativas, instancias, etc.).
lengua; después
Para ilustrar la funcionalidad del sistema,
cojamos como ejemplo las cartas de admisión a
la Universidad. El proceso se realiza en tres
pasos. Primero el “redactor” compone el
documento en una
los
“traductores” generan las versiones en el resto
de idiomas, y finalmente el redactor publica el
documento multilingüe completo. Se
trata
normalmente de un proceso repetitivo que se
reproduce año tras año. SARE-Bi aprovecha
esta
una
la base
alimentación y acceso rápidos a
documental multilingüe que
redactores y
traductores van construyendo a lo largo del
tiempo.
proporcionando
circunstancia,
Las prestaciones de SARE-Bi lo convierten
en un complemento perfecto de los gestores de
memorias de traducción (Wordfast, Déjà-Vu,
etc.), aunque en la práctica acaba absorbiendo
muchas de las funciones de estos programas,
haciéndolos innecesarios. Su principal ventaja
es que ofrece un entorno de trabajo cooperativo
en red, en el que tanto el redactor como el
traductor comparten la misma base documental,
de forma que pueden recuperar los documentos
relevantes como punto de partida para la
redacción
versiones
actualizadas, sin necesidad de recurrir a ningún
otro software de traducción.
traducción
Otra situación en la que el sistema resulta
muy útil se da cuando el redactor no solo
conoce la lengua en la que redacta, sino que
conoce también (aunque con menor confianza)
la segunda o tercera lengua del documento
(situación habitual con el euskera y el inglés, en
nuestro caso). Cuando esto sucede, el propio
redactor puede usar SARE-Bi para recuperar el
documento y practicar las modificaciones en la
versión original y en las traducciones. El
servicio de traducción se limitará a revisar y
validar los cambios introducidos.
Además de agilizar la tarea de traducción,
SARE-Bi presenta ventajas como base de datos
(monolingüe). Por
documental
ejemplo, otro “redactor” puede
tener que
tradicional
de
y
escribir una carta de admisión, pero no dispone
de ningún ejemplo o plantilla. Con la ayuda del
sistema no solo puede recuperar un documento
de partida inicial, sino que probablemente
pueda disponer de una versión multilingüe.
En resumen, SARE-Bi resuelve el problema
tradicional de generación de documentación
administrativa, pero, sobre todo, agiliza el
proceso de producción multilingüe de dicha
documentación. Con ello, se mejora tanto la
calidad como
la cantidad de documentos
multilingües generados, facilitando además la
labor de las personas involucradas en las tareas.
3. DESCRIPCIÓN CONCEPTUAL
El sistema SARE-Bi contiene primeramente
un corpus multilingüe anotado, segmentado y
alineado. Es decir, el contenido de
los
documentos no se almacena tal cual, sino que se
aporta un etiquetado que sigue las ideas básicas
del estándar TEI. Cada documento se divide en
subdocumentos, uno por cada lengua, y el
etiquetado
una
segmentación de cada subdocumento, y un
alineamiento de los segmentos correspondientes
en
los
segmentos son párrafos, y el etiquetado, la
segmentación y el alineamiento son procesos
que realiza automáticamente el sistema.
lenguas. Actualmente,
primordialmente
distintas
aporta
En segundo
lugar, se asocian a cada
documento una serie de metadatos, que
describen diversos aspectos prágmaticos y que
aportan la funcionalidad que se desea para el
sistema [3, 13]. El metadato más importante es
la categoría, que indica la clasificación del
documento según una taxonomía jerárquica de
distintos niveles (inspirada en otras propuestas
de clasificación tipológica [11]), que variará
lógicamente con cada implantación del sistema.
En el caso particular de la aplicación a la
Universidad de Deusto,
se diseñó una
taxonomía en tres niveles, que, de mayor a
menor jerarquía, indican la función, el género y
el tema del documento. Por ejemplo, un
certificado por asistencia a un cursillo tiene
función (primer nivel) “informativa”, es de
género (segundo nivel) “certificado”, y su tema
(tercer nivel) es “asistencia a un cursillo”. En la
actualidad, para la Universidad de Deusto, la
taxonomía consta de 3 funciones (“informar”,
“inquirir” y “reglamentar”), 25 géneros y 256
temas.
De parecida relevancia es el metadato
denominado estado, que informa de la situación
actual del documento en lo referente a su
el
de
en
que
tres
multilingüismo. Actualmente, existen
posibles situaciones para un documento (que
siguen un orden jerárquico, de forma que cada
una supone un avance respecto a la precedente):
sin_validar (el texto inicial producido por el
redactor), validado (versión que cuenta con la
aprobación de los traductores) y normativo
(versión multilingüe correcta que se ofrece
como modelo).
grado
señala
administrativa
documentación
También es importante la propiedad de
visibilidad,
de
confidencialidad que ha de tener el documento.
Dado que el propósito del sistema es almacenar
la
la
Universidad, se vió que podrían existir
documentos con información sensible, que no
deberían hacerse visibles en
las
condiciones. Se han identificado cuatro posibles
valores para este metadato: borrador (visible
solo para el redactor, supone que el documento
se encuentra en
la fase de elaboración),
confidencial (visible con fuertes restricciones),
compartido
la organización,
equivalente
Comentarios de: El sistema SARE-Bi de catalogación y recuperación de documentos multilingües (0)
No hay comentarios