PDF de programación - Definición de una Arquitectura de Referencia para Anonimizar Documentos

Imágen de pdf Definición de una Arquitectura de Referencia para Anonimizar Documentos

Definición de una Arquitectura de Referencia para Anonimizar Documentosgráfica de visualizaciones

Publicado el 3 de Julio del 2017
917 visualizaciones desde el 3 de Julio del 2017
2,7 MB
61 paginas
Creado hace 6a (09/10/2013)
Facultad de Ingeniería

C.P.A.P. - Instituto de Computación

Tesis de Maestría

en Ingeniería en Computación

“Definición de una Arquitectura de Referencia

para Anonimizar Documentos”

Ing. Horacio Vico

Tutor: MSc. Ing. Daniel Calegari

2013.

1

Agradecimientos

A mi tutor Daniel Calegari, quien ha sido un verdadero guía en este traba-
jo, aportando siempre oportunas ideas y comentarios sin los cuales difícilmente
habría arribado a buen puerto.

A mi esposa Evelyn por su apoyo incondicional en este proyecto personal que

ha sido cursar una maestría.

A mi hijo Nahuel, quien ha compartido desde sus primeros meses de vida mi

tiempo libre con el desarrollo de este trabajo de tesis.

Y muy especialmente a mi hija Belén que llegó a nuestras vidas cuando ya

me acercaba al final de este trabajo.

2

Resumen

La anonimización es un proceso que permite identificar y ocultar la informa-
ción sensible contenida en los documentos, permitiendo su divulgación sin que
ello implique vulnerar los derechos a la protección de datos de las personas y
organizaciones que se puedan referenciar en los mismos.

La anonimización automática o semi-automática de documentos no estruc-
turados se constituye como un desafío importante desde el punto de vista de la
ingeniería de software y en particular de la arquitectura de software ya que, entre
otras cosas, el proceso que se lleva a cabo no se encuentra bien definido, y para
su realización se deben combinar diversas disciplinas como el procesamiento de
lenguaje natural y la minería de textos.

El presente trabajo de tesis introduce una arquitectura de software de refe-
rencia para la anonimización de documentos desestructurados, basada en pro-
puestas arquitecturales existentes en la bibliografía. Se describe dicha arquitec-
tura en detalle así como se estudia la disponibilidad de herramientas vinculadas
al procesamiento del lenguaje natural, que resultan de utilidad en un proceso de
anonimización. Finalmente se lleva a la práctica la arquitectura propuesta me-
diante el diseño e implementación de un prototipo de sistema de anonimización
concreto para un marco de aplicación específico, consistente en la anonimización
de sentencias judiciales (jurisprudencia).

Palabras clave: Anonimización, despersonalización, protección de datos

personales, arquitectura de software, procesamiento del lenguaje natural.

3

Índice
1. Introducción

2. Contexto

2.1. Anonimización . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Marcos de Aplicación . . . . . . . . . . . . . . . . . . . . . . . . .

3. Arquitecturas de Anonimización

3.1. Propuestas existentes . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Aspectos a destacar
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .

3.2.1. Aspectos comunes
3.2.2. Aspectos específicos

4. Arquitectura de Referencia

4.1. Contexto y Análisis Funcional del Sistema . . . . . . . . . . . . .
4.2. Vista Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Modelado como proceso de negocios utilizando BPMN . .
4.3. Vista de Información . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1. Estructura de Datos . . . . . . . . . . . . . . . . . . . . .
4.3.2. Flujo de Datos . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Vista de Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .

4.4.1. Estructura de Paquetes
4.4.2. Estándares de diseño

5. Instanciación tecnológica de los módulos

5.1. TreeTagger
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. FreeLing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Apache OpenNLP . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4. OpenCalais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5. LingPipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Prototipo Aplicación DEMO: Anonimización de Jurispruden-

cia
6.1. Resultados Obtenidos

. . . . . . . . . . . . . . . . . . . . . . . .

7. Conclusiones y trabajos futuros

7.1. Conclusiones
7.2. Trabajos futuros

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .

4

7

9
9
10

12
12
16
17
17

19
19
23
27
35
35
36
37
37
39

41
41
41
42
42
43

44
53

55
55
56

Índice de figuras

1.
Arquitectura ANONIMYTEXT . . . . . . . . . . . . . . . . . . .
2. MOSTAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.
Clasificador HIDE . . . . . . . . . . . . . . . . . . . . . . . . . .
4.
. . . . . . . . . . . .
Etiquetador morfosintáctico para el español
5. Diagrama de Contexto . . . . . . . . . . . . . . . . . . . . . . . .
6. Modelo en capas del sistema . . . . . . . . . . . . . . . . . . . . .
7.
Proceso modelado mediante BPMN2 . . . . . . . . . . . . . . . .
Subproceso Reconocer Entidades con Nombre . . . . . . . . . . .
8.
Subproceso Agrupar Entidades con Nombre . . . . . . . . . . . .
9.
10. Subproceso Anonimizar Documento
. . . . . . . . . . . . . . . .
11. Modelo de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . .
12. Flujo de información . . . . . . . . . . . . . . . . . . . . . . . . .
13. Estructura de Paquetes
. . . . . . . . . . . . . . . . . . . . . . .
14. Patrón Adapter . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15. OpenCalais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16. Proceso aplicación DEMO . . . . . . . . . . . . . . . . . . . . . .
17. Modelo de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . .
18. Tabla Sentencia de la base BJN . . . . . . . . . . . . . . . . . . .
19. Tabla Rules de la base Anonimizacion . . . . . . . . . . . . . . .
20. Modelo de Despliegue
. . . . . . . . . . . . . . . . . . . . . . . .
21. Diagrama de Secuencia - MultiNER . . . . . . . . . . . . . . . .
22. Sistema Aplicación Demo . . . . . . . . . . . . . . . . . . . . . .

13
14
15
16
20
27
28
32
33
34
36
37
39
40
42
47
48
49
49
50
53
54

5

Índice de tablas

1.
2.
4.
5.

Aspectos comunes y específicos . . . . . . . . . . . . . . . . . . .
Requerimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Requerimientos Aplicación DEMO . . . . . . . . . . . . . . . . .

17
24
31
45

6

1.

Introducción

El incesante avance de las tecnologías de la información en el seno de las or-
ganizaciones, ha impulsado la incorporación de la Gestión Documental[45] como
una disciplina fundamental. El objetivo es optimizar la gestión y así maximizar
el aprovechamiento de los grandes volúmenes de información que se encuentran
en la forma de documentos. En algunos dominios de aplicación de la gestión do-
cumental tales como el gobierno electrónico o los servicios de salud, entre otros,
se presenta una necesidad recurrente: la anonimización. Este y otros conceptos
se describen en profundidad en la siguiente sección y en el Anexo A, pero a modo
introductorio diremos que anonimización es el proceso que consiste en proteger
o incluso eliminar la información sensible contenida en los documentos.

La anonimización tiene aplicación en aquellos documentos donde la infor-
mación de valor contenida en ellos, es independiente de los datos personales o
la información sensible. El fin es que dicha información pueda ser utilizada den-
tro de la propia organización o por terceros, sin que esto implique vulnerar la
privacidad y la confidencialidad de los datos personales de las personas físicas
o jurídicas que se referencian en el documento original. Algunos países poseen
legislación muy específica vinculada con la anonimización. En Uruguay se ha
aprobado normativa referente a la protección de datos personales[12], exigien-
do a las organizaciones garantizar la confidencialidad de los datos personales
que manejan. Este tipo de normas jurídicas han impulsado la investigación y
el desarrollo de técnicas y metodologías para la anonimización automática o
semiautomática de los documentos.

El problema informático de anonimizar documentos no resulta trivial, más
teniendo en cuenta que muchos de ellos no siguen un formato estructurado
que permita identificar fácilmente la información sensible dentro de los mismos.
Disciplinas computacionales tales como el procesamiento de lenguaje natural, la
minería de textos, o el aprendizaje automático por máquinas, se presentan como
herramientas aplicables para la resolución de este tipo de problemas. Desde
el punto de vista de la arquitectura de software, la integración de diferentes
elementos tecnológicos que se pueden utilizar en un proceso de anonimización
tales como los mencionados, representa un tema de investigación en sí mismo.
En el marco de este proyecto, fueron estudiadas diversas propuestas de ar-
quitecturas de anonimización tales como ANONIMYTEXT[41], MOSTAS [15],
HIDE [33], y Etiquetador ESP[29]. De dichas propuestas se identificaron carac-
terísticas comunes de los sistemas de anonimización, y se seleccionaron aquellas
que se consideran de utilidad para la definición de una arquitectura de referen-
cia, complementándolas con definiciones específicas de la propuesta que aquí se
describe.

El presente trabajo de tesis, tiene los siguientes tres grandes objetivos:

1. Realizar un relevamiento de las arquitecturas existentes para sistemas de
anonimización, así como las herramientas de software que se pudieran
utilizar para este fin.

7

2. Diseñar y documentar detalladamente una arquitectura de referencia ge-

nérica para sistemas de anonimización.

3. Llevar a la práctica dicha arquitectura, mediante el diseño e implementa-
ción de un sistema concreto de anonimización para un dominio específico.

El resto del documento se organiza de la siguiente forma:

En la Sección 2, se introducen los conceptos básicos que se manejarán a lo
largo de este trabajo, fundamentalmente el concepto de anonimización y sus
marcos de a
  • Links de descarga
http://lwp-l.com/pdf4804

Comentarios de: Definición de una Arquitectura de Referencia para Anonimizar Documentos (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad