PDF de programación - Descriptores Visuales de MPEG-7 Empleando la GPU

Volver

<<>>

Descriptores Visuales de MPEG-7 Empleando la GPU

Publicado el 11 de Septiembre del 2017

917 visualizaciones desde el 11 de Septiembre del 2017

2,9 MB

9 paginas

Creado hace 9a (28/01/2015)

Descriptores Visuales de MPEG-7 Empleando la GPU

Víctor Felipe1, Esmitt Ramírez2

[email protected], [email protected]

1 Centro de Cálculo Científico y Tecnológico, Universidad Central de Venezuela, Caracas, Venezuela

2 Centro de Computación Gráfica, Universidad Central de Venezuela, Caracas, Venezuela

Resumen: El ser humano puede de forma intuitiva seleccionar un grupo de fotografías de un conjunto e identificarlas como
similares. Para ello, se emplean criterios basados en procesos cognitivos de aprendizaje centrados en sus características
visuales. En un computador, se trata de emular dicho proceso al calcular un vector de características para una imagen, el
cual permite identificarlas por sus atributos como su luminosidad, color predominante, intensidad, tonalidad, entre otros. El
estándar MPEG-7 es una representación de imágenes y video que define, entre diversos atributos, características llamadas
descriptores visuales los cuales pueden ser empleados para la aplicación de funciones de similitud entre imágenes. Sin
embargo, el costo computacional de obtener estos descriptores es elevado. En este trabajo proponemos realizar estos
cálculos empleando arquitecturas paralelas ofrecidas por las tarjetas gráficas. De esta forma, se realizan modificaciones a la
propuesta original de MPEG-7 para ser ajustadas a las GPUs y obtener resultados en menores tiempos manteniendo la
eficacia. La experimentación realizada justifica nuestra propuesta al implementar descriptores visuales de color, textura y
forma, aplicados a una gran cantidad de imágenes permitiendo determinar con precisión la similitud entre pares.

Palabras Clave: Descriptores Visuales; Procesamiento Digital de Imágenes; MPEG-7; GPUs; Fotomosaicos.

Abstract: The human being is able to intuitively select a group from a set of images, and identify them as similar. Thus,
some criteria are used based on cognitive learning processes focused on their visual features. On a digital device, this
process is emulated generating a vector of image features, allowing the identification of their attributes such as luminosity,
predominant colors, intensity, tonality and others. MPEG-7 defines visual descriptors which can be used to apply similarity
functions between images. However, the computational cost of this measurement is usually high. In this work, we propose
an approach to accelerate these calculations using the parallel architectures offered by GPUs. Thus, modifications to the
original MPEG-7 proposal were performed to adjust our implementation to these architectures in order to reduce the
computational cost of these computations. The experimentation accomplished justified our work in the use of high amount
of images to determine the precision of these visual descriptors to find similar images.

Keywords: Visual Descriptors; Digital Image Processing; MPEG-7; GPUs; Photomosaics.

I. INTRODUCCIÓN

El MPEG (Moving Picture Experts Group) establecido en 1988
ha desarrollado una serie de estándares para el manejo,
tratamiento, compresión y visualización de contenido digital
audiovisual. Así nace el estándar MPEG-7 que se centra en
proveer descripciones de imágenes, audio y video, lo cual
contribuye al filtrado y la categorización de contenido. Para
ello, MPEG-7 busca una forma simple de conectar los
elementos del contenido audiovisual, así como encontrar y
seleccionar de forma adecuada la información que un usuario
requiere. El estándar permite el manejo de audio, modelos 3D,
video e imágenes, siendo esta última el punto de interés para
nuestro estudio.

Es conocido que el contenido presente en el mundo actual a
través de los diversos medios es altamente audiovisual, con el
objeto de llegar de forma directa a un usuario final. Diversos

contenidos para publicidad, entretenimiento, educación, entre
muchos otros, son primordiales y están presentes con mayor
auge cada día. Así, la necesidad de mantener contenido
inequívoco toma importancia. Un caso particular lo constituyen
las imágenes, las cuales pueden estar duplicadas en diversos
ámbitos dentro de un gran repositorio de datos (e.g. Internet),
lo cual puede
redundancia, necesidad de
almacenamiento, mal uso, etc. Del mismo modo, resulta
interesante encontrar muchas versiones ligeramente diferentes
de una misma imagen. Por ejemplo, una aplicación para
dispositivos móviles de reconocimiento de lugares turísticos
que tome como entrada una fotografía de un lugar a ubicar (e.g.
la Torre Eiffel en París, Francia).

resultar en

Sin embargo, desde el punto de vista computacional el proceso
de encontrar imágenes similares dentro de un gran banco de
datos no es tarea trivial. Una buena técnica es llamada Query
by Example que es empleada principalmente por sistemas de

Revista Venezolana de Computación ISSN: 2244-7040 http://www.svc.net.ve/revecom Vol. 1, No. 2, pp. 72-80, Diciembre 2014 Selección de los Mejores Artículos de CoNCISa 2014 de Computación72 consulta de imágenes mediante ejemplo (Content-based Image
Retrieval - CBIR) [1], que permite buscar imágenes basadas en
su contenido dentro del contexto de color, textura y forma.

Este trabajo se basa en la construcción de descriptores visuales
del estándar MPEG-7 basados en color, textura y forma para
conseguir un conjunto de imágenes similares dentro de un
repositorio, teniendo como entrada una imagen base. Dado el
alto cómputo requerido para obtener los descriptores del
estándar, se realiza un diseño e implementación bajo una
arquitectura paralela que ofrece un hardware de bajo costo
como lo son las tarjetas gráficas. Para ello, se emplea la
arquitectura CUDA (Compute Unified Device Architecture)
como base de trabajo ofreciendo muy buenos resultados al
aplicar las diversas funciones de similitud de los descriptores
visuales. Así, nuestra propuesta presenta una implementación
eficaz y eficiente del estándar aplicando modificaciones que
permiten mejorar y adaptar los descriptores a un ambiente bajo
la GPU (Graphics Processing Unit). En este sentido, se utilizan
descriptores visuales para la generación de fotomosaicos como
caso de estudio de una aplicación de tipo CBIR.

Este artículo se organiza como sigue: en la Sección II, muestra
un resumen de los trabajos previos relacionados con nuestra
investigación. La definición de los descriptores visuales del
estándar MPEG-7 se presenta en la Sección III. La Sección IV
presenta el enfoque utilizado para la implementación de cada
uno de los descriptores, y en la Sección V se muestra la
experimentación realizada y los resultados obtenidos de dicho
enfoque. Finalmente, en la Sección VI se presentan las
conclusiones de nuestra investigación y posibles trabajos
futuros.

II. TRABAJOS PREVIOS

Las aplicaciones basadas en CBIR, corresponden a una rama
de estudios en diversos centros de investigación del mundo,
existiendo actualmente gran cantidad de información sobre las
tecnologías que las implementan, métricas, buenas prácticas,
entre otras [2][3]. En especialidades como la medicina, se ha
empleado para el diagnóstico de patologías conocidas basadas
en
radiográficas, muestras citológicas, MRI
(Magnetic Resonance Imaging), entre otras.

imágenes

De manera habitual, con el objetivo de mantener una
consistencia adecuada entre diversas aplicaciones, éstas han
optado por emplear el estándar MPEG-7 para poder persistir y
ser de utilidad en diversos ámbitos [4].

Diversos trabajos asociados a los descriptores visuales del
estándar MPEG-7 han sido desarrollados recientemente. En [5]
se presenta el algoritmo k-medias que es utilizado para la
obtención de características de color a partir de imágenes. Por
otro lado, Sergyán [6] propone una medida de similitud que
permite comparar imágenes en base a estas características.
Recientemente, Felipe y Ramírez
[7] presentaron una
implementación eficiente del algoritmo k-medias empleando la
GPU.

En cuanto al uso de descriptores de forma, Park et al. [8]
proponen el cálculo de características de forma siguiendo un
esquema en bloque a partir de sub-imágenes, considerando la
información de los bordes presentes, tanto de forma local como
global.

Por su parte Hosny presenta en su trabajo [9] una aproximación
para el cálculo de los coeficientes de la transformada radial
angular (ART), utilizada para determinar características de
forma asociadas a imágenes, llevando a cabo un proceso de
interpolación como lo muestra Xin [10] en su trabajo.

En este trabajo, planteamos un caso de estudio basado en el uso
de fotomosaicos para demostrar
los
descriptores de MPEG-7 en la GPU. De este tópico, existen
diversas investigaciones que presentan técnicas novedosas para
su generación, variando su aspecto visual [11][12][13].

la efectividad de

los buscadores convencionales permiten

Enfocando la utilidad de los descriptores visuales a una
aplicación,
la
búsqueda de elementos (e.g. imágenes) haciendo uso de sus
metadatos tales como su nombre, lo cual dificulta en muchos
casos encontrar los elementos deseados. La utilización de
información que puede ser obtenida a partir de características
tales como color, textura y forma, facilita la búsqueda de
imágenes similares. Recientemente, la utilización de sistemas
de esta naturaleza se ha incrementado debido a la alta
disponibilidad

Links de descarga

http://lwp-l.com/pdf6905

Comentarios de: Descriptores Visuales de MPEG-7 Empleando la GPU (0)

No hay comentarios

Comentar...

El Libro para Principiantes en Node.js

TorrentLocker - Ransomware en un país cercano

PDF de programación - Descriptores Visuales de MPEG-7 Empleando la GPU

Descriptores Visuales de MPEG-7 Empleando la GPU

Comentarios de: Descriptores Visuales de MPEG-7 Empleando la GPU (0)

Comentar...

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.