Publicado el 4 de Octubre del 2019
910 visualizaciones desde el 4 de Octubre del 2019
4,1 MB
133 paginas
Creado hace 12a (11/02/2013)
Sistemas de recuperación e internet
Metadescripción, procesamiento, webcrawling, técnicas de consulta
avanzada, hacking documental y posicionamiento web
Manuel Blázquez Ochando
Monografías electrónicas
mblazquez.es
Sistemas de Recuperación e Internet
Sistemas de recuperación e internet: metadescripción,
procesamiento, webcrawling, técnicas de consulta avanzada, hacking
documental y posicionamiento web / Manuel Blázquez Ochando .–
Madrid: mblazquez.es, 2013.
133p. ; 21cm.– (Libros y manuales de la Documentación; 3)
ISBN 978-84-695-7019-7
1. Biblioteconomía y Documentación 2. Recuperación de
BLÁZQUEZ OCHANDO, Manuel
Información I. Título II. Series
025.4.036:004
BLA
sis
UNIVERSIDAD COMPLUTENSE DE MADRID
Facultad de Ciencias de la Documentación
1ªed. enero 2013, Madrid
© Copyright 2013. Manuel Blázquez Ochando
Publicado por mblazquez.es
ISBN 978-84-695-7019-7
1
Sistemas de Recuperación e Internet
Índice
1.
Introducción .......................................................................................................... 4
2.
3.
4.
5.
6.
7.
8.
9.
Dublin Core básico: principios y fundamentos .................................................... 5
Dublin Core avanzado: etiquetado completo ...................................................... 11
Dublin Core: referencia de codificación ............................................................. 15
Dublin Core en RDF ........................................................................................... 23
MADS: metadatos para la descripción de autoridades ....................................... 33
MODS: metadatos para la descripción de objetos bibliográficos ....................... 42
METS: metadatos para la descripción de metadatos .......................................... 48
Lectura de metadatos: programas parser ............................................................ 53
10. Webmetría y análisis de páginas web ................................................................. 58
11.
12.
13.
14.
15.
Técnicas de consulta dinámica GET en Google ................................................. 66
Búsqueda con operadores avanzados y directorios de servidores ...................... 71
Extensión de consultas avanzadas y recuperación de volcados de datos ........... 77
Tácticas de posicionamiento web – SEO search engine optimization ............... 80
Ejercicios prácticos ............................................................................................. 94
Práctica1. Metadatos y descripción Dublin Core ........................................................ 94
Práctica2. Descripción bibliográfica Dublin Core ...................................................... 98
Práctica3. Dublin Core RDF y generadores de metadatos ........................................ 100
Práctica4. Descripción de autoridades MADS.......................................................... 102
Práctica5. Descripción bibliográfica con MODS ..................................................... 104
Práctica6. Análisis y recuperación parser de metadatos ........................................... 105
Práctica7. Análisis webcrawler ................................................................................. 107
Práctica8. Consultas dinámicas URL en Google ...................................................... 110
Práctica9. Operadores avanzados y directorios de servidores .................................. 114
Práctica10. Recuperación de volcados de datos ....................................................... 116
Práctica11. Configuración de archivo robots.txt y sitemap.xml ............................... 119
2
Práctica12. Cálculo de PageRank ............................................................................. 122
Sistemas de Recuperación e Internet
Índice de tablas ................................................................................................. 125
Índice de figuras ............................................................................................... 127
Bibliografía y referencias ................................................................................. 128
3
16.
17.
18.
Sistemas de Recuperación e Internet
Introducción
1.
La búsqueda y recuperación en Internet consta de métodos y técnicas complementarios
a los empleados en el desarrollo de algoritmos en los motores de búsqueda, véase blog
de la asignatura Técnicas Avanzadas de Recuperación de Información. En este sentido,
se estudiarán con detenimiento todos los metadatos Dublin Core básicos y extendidos,
para su aplicación en páginas web en forma de etiquetas embebidas dentro del código
fuente de una página web y en formato RDF. Tales sistemas de meta-descripción
favorecen los procesos de indexación y recuperación de cualquier página web, siendo
considerados como uno de los factores que permite un posicionamiento en los ranking
de resultados en los principales buscadores. Unido a este posicionamiento, se
encuentran la webmetría y la cibermetría que estudian cuantitativa y cualitativamente
las características de los sitios web y sus páginas, así como su nivel de enlazamiento,
topografía y grafo correspondientes. Estas técnicas de estudio de la web son de utilidad
para elaborar investigaciones que determinan la importancia de cada sitio web, así como
para desarrollar una base de conocimiento útil para su explotación, mediante minería de
datos, por ejemplo.
Pero también se consideran de importancia, las técnicas de consulta avanzadas por
medio del protocolo REST, empleando variables dinámicas en la URL de consulta de
los principales buscadores, que en muchos casos actúa con una enorme versatilidad para
resolver problemas de búsqueda más especializados. En este sentido, el conocimiento de
técnicas básicas de hacking, pueden facilitar la recuperación de información en
directorios, la localización de documentos y versiones de páginas web que resultan de
difícil acceso. En resumen, puede definirse la búsqueda en Internet, como un verdadero
campo de pruebas en continua expansión, cuyas tácticas y métodos se mantienen en
continuo cambio y progresión.
4
Sistemas de Recuperación e Internet
2. Dublin Core básico: principios y fundamentos
Qué es un metadato
El origen de los metadatos, se encuentra en el ámbito de la automatización y el
desarrollo de bases de datos para la gestión de información. En los años 60 Jack Myers
acuño el concepto metadato para referirse al conjunto de campos que permitían describir
un producto para su puesta en circulación dentro del mercado. Esta primera
aproximación fue de especial relevancia para aumentar y afinar el ámbito de aplicación
al entorno web y más especialmente en el ámbito biblioteconómico y documental. se
puede definir un metadato como "una descripción de modelos de descripción o
catalogación de una serie de elementos, objetos, documentos e incluso etiquetas de
descripción". Ésta definición tan amplia, proporciona una idea de la dificultad de
acotación, téngase pues como ejemplos, los campos de un ficha catalográfica, los
factores de análisis de un estudio comparado, los indicadores de riqueza de un país, los
campos de tipificación y parameterización de campos de las bases de datos e incluso la
estructura de un artículo científico, pueden ser considerados metadatos. En este sentido,
cualquier sistema o convención que permita describir un dato, estructurarlo u
organizarlo, es un metadato. Aledaña a esta concepción, se sitúa el concepto meta-
información e incluso meta-conocimiento que hacen alusión a estadios de abstracción
más elaborados, partiendo del dato original. Por estos motivos los profesionales de la
información, así como la propia Documentación, deben estudiar qué métodos de meta
descripción aplicar para cada caso. Según (GILLILAND, A.J.; GILL, T.; WHALEN,
M.; WOODLEY, M.S. 2008) existen diversos contextos de aplicación de los metadatos,
véase tabla1.
Contexto
Aplicación
Ejemplos
Administrativo
Gestión y administración de recursos
de información
Adquisición de información
−
− Derechos y reproducción
− Requerimientos legales para el acceso
−
− Criterios de selección
− Control de versiones
Localización de información
Descriptivo
Representación de recursos de
información
− Registros catalográficos
−
−
− Relaciones hipertextuales
Asistencia a la recuperación
Índices especializados
5
Sistemas de Recuperación e Internet
Preservación
Salvaguardar recursos de información
− Condiciones de uso
−
Estado de conservación
− Medidas de preservación
− Copias de seguridad de la información
Técnico
Funcionamiento de sistemas de
información
− Documentación y ayuda de programas
informáticos
− Digitalización de la información
−
− Control de tiempo de respuesta
Autentificación y datos de seguridad
Uso
Nivel y tipo de uso de los recursos
informativos
Información de versiones
−
− Reutilización de la información
Tabla 1. Contextos de aplicación de los metadatos
Un ejemplo de la importancia de los metadatos es la consideración como tal, de las
principales normas de descripción y clasificación utilizadas en Biblioteconomía y
Documentación, como se demuestra en la siguiente comparativa de metadatos
normalizados, en los que se identifica claramente la CDWA, CCO, VRA, MARC,
MODS, Dublin Core, DACS, EAD, OBJECT ID, CIMI, FDA.
Meta-etiquetas en la Web
Los meta
Comentarios de: Aplicaciones documentales de la recuperación de información (0)
No hay comentarios