PDF de programación - Definición de una Arquitectura de Referencia para Anonimizar Documentos

Volver

<<>>

Definición de una Arquitectura de Referencia para Anonimizar Documentos

Actualizado el 24 de Octubre del 2020 (Publicado el 3 de Julio del 2017)

2.254 visualizaciones desde el 3 de Julio del 2017

2,7 MB

61 paginas

Creado hace 11a (09/10/2013)

Facultad de Ingeniería

C.P.A.P. - Instituto de Computación

Tesis de Maestría

en Ingeniería en Computación

“Deﬁnición de una Arquitectura de Referencia

para Anonimizar Documentos”

Ing. Horacio Vico

Tutor: MSc. Ing. Daniel Calegari

2013.

1

Agradecimientos

A mi tutor Daniel Calegari, quien ha sido un verdadero guía en este traba-
jo, aportando siempre oportunas ideas y comentarios sin los cuales difícilmente
habría arribado a buen puerto.

A mi esposa Evelyn por su apoyo incondicional en este proyecto personal que

ha sido cursar una maestría.

A mi hijo Nahuel, quien ha compartido desde sus primeros meses de vida mi

tiempo libre con el desarrollo de este trabajo de tesis.

Y muy especialmente a mi hija Belén que llegó a nuestras vidas cuando ya

me acercaba al ﬁnal de este trabajo.

2

Resumen

La anonimización es un proceso que permite identiﬁcar y ocultar la informa-
ción sensible contenida en los documentos, permitiendo su divulgación sin que
ello implique vulnerar los derechos a la protección de datos de las personas y
organizaciones que se puedan referenciar en los mismos.

La anonimización automática o semi-automática de documentos no estruc-
turados se constituye como un desafío importante desde el punto de vista de la
ingeniería de software y en particular de la arquitectura de software ya que, entre
otras cosas, el proceso que se lleva a cabo no se encuentra bien deﬁnido, y para
su realización se deben combinar diversas disciplinas como el procesamiento de
lenguaje natural y la minería de textos.

El presente trabajo de tesis introduce una arquitectura de software de refe-
rencia para la anonimización de documentos desestructurados, basada en pro-
puestas arquitecturales existentes en la bibliografía. Se describe dicha arquitec-
tura en detalle así como se estudia la disponibilidad de herramientas vinculadas
al procesamiento del lenguaje natural, que resultan de utilidad en un proceso de
anonimización. Finalmente se lleva a la práctica la arquitectura propuesta me-
diante el diseño e implementación de un prototipo de sistema de anonimización
concreto para un marco de aplicación especíﬁco, consistente en la anonimización
de sentencias judiciales (jurisprudencia).

Palabras clave: Anonimización, despersonalización, protección de datos

personales, arquitectura de software, procesamiento del lenguaje natural.

3

Índice
1. Introducción

2. Contexto

2.1. Anonimización . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Marcos de Aplicación . . . . . . . . . . . . . . . . . . . . . . . . .

3. Arquitecturas de Anonimización

3.1. Propuestas existentes . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Aspectos a destacar
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .

3.2.1. Aspectos comunes
3.2.2. Aspectos especíﬁcos

4. Arquitectura de Referencia

4.1. Contexto y Análisis Funcional del Sistema . . . . . . . . . . . . .
4.2. Vista Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Modelado como proceso de negocios utilizando BPMN . .
4.3. Vista de Información . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1. Estructura de Datos . . . . . . . . . . . . . . . . . . . . .
4.3.2. Flujo de Datos . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Vista de Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .

4.4.1. Estructura de Paquetes
4.4.2. Estándares de diseño

5. Instanciación tecnológica de los módulos

5.1. TreeTagger
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. FreeLing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Apache OpenNLP . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4. OpenCalais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5. LingPipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Prototipo Aplicación DEMO: Anonimización de Jurispruden-

cia
6.1. Resultados Obtenidos

. . . . . . . . . . . . . . . . . . . . . . . .

7. Conclusiones y trabajos futuros

7.1. Conclusiones
7.2. Trabajos futuros

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .

4

7

9
9
10

12
12
16
17
17

19
19
23
27
35
35
36
37
37
39

41
41
41
42
42
43

44
53

55
55
56

Índice de ﬁguras

1.
Arquitectura ANONIMYTEXT . . . . . . . . . . . . . . . . . . .
2. MOSTAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.
Clasiﬁcador HIDE . . . . . . . . . . . . . . . . . . . . . . . . . .
4.
. . . . . . . . . . . .
Etiquetador morfosintáctico para el español
5. Diagrama de Contexto . . . . . . . . . . . . . . . . . . . . . . . .
6. Modelo en capas del sistema . . . . . . . . . . . . . . . . . . . . .
7.
Proceso modelado mediante BPMN2 . . . . . . . . . . . . . . . .
Subproceso Reconocer Entidades con Nombre . . . . . . . . . . .
8.
Subproceso Agrupar Entidades con Nombre . . . . . . . . . . . .
9.
10. Subproceso Anonimizar Documento
. . . . . . . . . . . . . . . .
11. Modelo de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . .
12. Flujo de información . . . . . . . . . . . . . . . . . . . . . . . . .
13. Estructura de Paquetes
. . . . . . . . . . . . . . . . . . . . . . .
14. Patrón Adapter . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15. OpenCalais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16. Proceso aplicación DEMO . . . . . . . . . . . . . . . . . . . . . .
17. Modelo de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . .
18. Tabla Sentencia de la base BJN . . . . . . . . . . . . . . . . . . .
19. Tabla Rules de la base Anonimizacion . . . . . . . . . . . . . . .
20. Modelo de Despliegue
. . . . . . . . . . . . . . . . . . . . . . . .
21. Diagrama de Secuencia - MultiNER . . . . . . . . . . . . . . . .
22. Sistema Aplicación Demo . . . . . . . . . . . . . . . . . . . . . .

13
14
15
16
20
27
28
32
33
34
36
37
39
40
42
47
48
49
49
50
53
54

5

Índice de tablas

1.
2.
4.
5.

Aspectos comunes y especíﬁcos . . . . . . . . . . . . . . . . . . .
Requerimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Requerimientos Aplicación DEMO . . . . . . . . . . . . . . . . .

17
24
31
45

6

1.

Introducción

El incesante avance de las tecnologías de la información en el seno de las or-
ganizaciones, ha impulsado la incorporación de la Gestión Documental[45] como
una disciplina fundamental. El objetivo es optimizar la gestión y así maximizar
el aprovechamiento de los grandes volúmenes de información que se encuentran
en la forma de documentos. En algunos dominios de aplicación de la gestión do-
cumental tales como el gobierno electrónico o los servicios de salud, entre otros,
se presenta una necesidad recurrente: la anonimización. Este y otros conceptos
se describen en profundidad en la siguiente sección y en el Anexo A, pero a modo
introductorio diremos que anonimización es el proceso que consiste en proteger
o incluso eliminar la información sensible contenida en los documentos.

La anonimización tiene aplicación en aquellos documentos donde la infor-
mación de valor contenida en ellos, es independiente de los datos personales o
la información sensible. El ﬁn es que dicha información pueda ser utilizada den-
tro de la propia organización o por terceros, sin que esto implique vulnerar la
privacidad y la conﬁdencialidad de los datos personales de las personas físicas
o jurídicas que se referencian en el documento original. Algunos países poseen
legislación muy especíﬁca vinculada con la anonimización. En Uruguay se ha
aprobado normativa referente a la protección de datos personales[12], exigien-
do a las organizaciones garantizar la conﬁdencialidad de los datos personales
que manejan. Este tipo de normas jurídicas han impulsado la investigación y
el desarrollo de técnicas y metodologías para la anonimización automática o
semiautomática de los documentos.

El problema informático de anonimizar documentos no resulta trivial, más
teniendo en cuenta que muchos de ellos no siguen un formato estructurado
que permita identiﬁcar fácilmente la información sensible dentro de los mismos.
Disciplinas computacionales tales como el procesamiento de lenguaje natural, la
minería de textos, o el aprendizaje automático por máquinas, se presentan como
herramientas aplicables para la resolución de este tipo de problemas. Desde
el punto de vista de la arquitectura de software, la integración de diferentes
elementos tecnológicos que se pueden utilizar en un proceso de anonimización
tales como los mencionados, representa un tema de investigación en sí mismo.
En el marco de este proyecto, fueron estudiadas diversas propuestas de ar-
quitecturas de anonimización tales como ANONIMYTEXT[41], MOSTAS [15],
HIDE [33], y Etiquetador ESP[29]. De dichas propuestas se identiﬁcaron carac-
terísticas comunes de los sistemas de anonimización, y se seleccionaron aquellas
que se consideran de utilidad para la deﬁnición de una arquitectura de referen-
cia, complementándolas con deﬁniciones especíﬁcas de la propuesta que aquí se
describe.

El presente trabajo de tesis, tiene los siguientes tres grandes objetivos:

1. Realizar un relevamiento de las arquitecturas existentes para sistemas de
anonimización, así como las herramientas de software que se pudieran
utilizar para este ﬁn.

7

2. Diseñar y documentar detalladamente una arquitectura de referencia ge-

nérica para sistemas de anonimización.

3. Llevar a la práctica dicha arquitectura, mediante el diseño e implementa-
ción de un sistema concreto de anonimización para un dominio especíﬁco.

El resto del documento se organiza de la siguiente forma:

En la Sección 2, se introducen los conceptos básicos que se manejarán a lo
largo de este trabajo, fundamentalmente el concepto de anonimización y sus
marcos de a