PDF de programación - Qué es la Deep Web?

Imágen de pdf Qué es la Deep Web?

Qué es la Deep Web?gráfica de visualizaciones

Publicado el 9 de Julio del 2018
630 visualizaciones desde el 9 de Julio del 2018
5,9 MB
57 paginas
Creado hace 3a (01/11/2016)
Philippe Boland
@enREDo

15/16 - Screenagers

Ciberadicción

Copycat

Copy past

Nov. 11 del 2013

La Web Invisible es el conjunto de
documentos, en línea disponibles
que ni se leen ni están indexados por
los motores de búsqueda
tradicionales.
También se conoce como "web
oculta" o "web profunda" (Deep
web en Inglés).

Limites
Datos cerrados

Qué es la Deep Web

Definición (Deep Web, Hidden Web Web Ocultos)
Todo el contenido de la web que no se accede
directamente a través de hipervínculos. En
particular: formularios HTML, servicios web.

Tamaño estimado
500 veces más que en la Web de superficie
~ 400.000 bases de datos Web profundas.

9

Vista Conceptual de la Web profunda

10

Deep Web dos categorías
1. Técnicamente inaccesible para los

buscadores
• Páginas creadas dinámicamente
• Bases de datos
• Archivos no textuales
• Sitios protegidos por contraseña
• Sitios prohíben rastreadores

2. Técnicamente accesible a los buscadores
• Archivos de texto en formatos no-html

(Google lo hace!)

• Páginas excluidos de motores por de

política editorial o sesgo

Deep Web no se navega, se bucea.

Contenido de la Web profunda?

Información nueva y cambia de forma dinámica y las que se que se almacena en una base de datos

• Páginas amarillas y otros directorios;
• Catálogos de bibliotecas y bases de datos
• Bases de datos de publicaciones;
• Los servicios meteorológicos;
• Patentes y leyes
• Las definiciones de diccionario
• Productos en venta o subasta
• informes técnicos
• Otros datos especializados
• Noticias e informes
• Ofertas de empleo

Conocimiento en la Web profunda

• Contenido de la Web profunda oculta de los motores de búsqueda

Web clásicas (que sólo tienes que seguir los enlaces)

• Pero es muy valiosa y de gran calidad!


Incluso los servicios que permiten el acceso a través de la Web de la
superficie (por ejemplo, el comercio electrónico) tienen más
semántica cuando se accede desde la Web profunda

• Cómo beneficiarse de esta información?
• ¿Cómo hacerlo de forma automática, de manera no supervisada?

15

¿Cómo esta "estructurado" es la Web profunda?

Bases de datos Web clasificada en dos tipos

1 - las bases de datos no estructurados

• objetos de datos como medios no estructurados (texto, imágenes, audio y

vídeo)

2 - bases de datos estructuradas

• objetos de datos como registros estructurados "relacionales" con pares

atributo-valor /records with attribute-value pairs

16

• Las publicaciones académicas, como las
de revistas científicas privadas, tampoco
forman parte de la superficie, ya que
están escondidas en páginas individuales
dentro de redes privadas, como las que
descargó el fallecido Aaron Swartz y por
las que fue encarcelado y enjuiciado.
Muchas páginas también están
escondidas porque forman parte de una
Intranet, usualmente de corporaciones o
universidades.

Internet versus bases de datos

Internet Interés :
• La multiplicidad de fuentes de

información.

• La interactividad.
• Cobertura internacional.

Uso :
• Noticias inmediata?.
• Análisis de los portales de

empresas.

• Información sobre un país.
• Portales especializados

Bases de datos Interés :

• Fiabilidad de la información.

• Datos con valor añadido

• Una forma estructurada

Uso :

• Archivo de prensa?. Balances de

empresas?. Investigación del mercado

La evolución del concepto de vigilancia y soportes

• Vigilancia tecnológica

(años 70)

• Desarrollo de bases de

datos científicas, patentes

• Inteligencia Competitiva y

Estratégica (años 80)

• Bases de datos empresas,

sectores?

• Inteligencia económica

(año 90)

• Desarrollo y surgimiento

de la "web 2.0“

Explosión de fuentes de información
Disminución del costo de acceso a la información

Motor de búsqueda ideal

Calidad, cantidad?

Actualización

Sugerencia de palabras clave,

Búsqueda booleana, Opciones avanzadas

Contenidos

Interfaz de

consulta

Pertinencia

Utilidades

Clasificación y
visualización

Resumen automático

Traducción

Vigilancia automática

Clustering
Cartografía

Los 4 principales modos de
búsqueda de información (fuente: URFIST)

Modes de recherchePrincipe, démarcheintellectuellesType d’informationconcernéeExemples d’outilsRecherche parnavigationarborescenteDémarchesystématique, dugénéral au particulierRecherche par menussuccessifsInformationstructurée, organisée enplan de classementTables des matièresClassificationsdocumentairesAnnuaires webPage d’accueil d’unsite webRecherche parnavigationhypertextuelleRéseauDémarche associative,d’une notion à l’autre.Navigation dans unréseau de noeuds et deliensInformation nonstructuréeRenvois dans uneencyclopédieLiens hypertextePortailsRecherche par requêtesur la description" dudocumentIndexDémarche d’indexationde l’informationRecherche par champs,logique booléenneInformation structuréeen champs.Index des livresBanques de donnéesCatalogues debibliothèquesRecherche par requêtesur le texte intégralTexteDémarche d’analyselinguistiqueRecherche contextuellesur le contenuInformation nonstructuréeMoteurs de rechercheOutils de TALNOutils linguistiques La guerra de los motores

• Las grandes naciones han tomado en cuenta

desde hace tiempo de los retos estratégicos de
la indexación de los contenidos digitales.

• Su independencia informacional

Los motores frente a los metadatos

• La geopolítica de los datos impone que los gobiernos de definir una política

clara de amasamiento y de preservación de los datos digitales

• Los objetos conectados, la relocalización, la emergencia de las ciudades

inteligentes conectadas y de la información ubicua contribuye a un diluvio
de datos digitales.

• La recopilación y recolección de metadatos (big data) induiront le

développement de moteurs polyvalents capables d'indexer toutes les bases
de données publiques quelle que soient leurs tailles et leurs contenus.

• infraestructura de poder estratégico.

Memex, el motor Darpa

• El acceso a la Web profunda es un componente estratégico del sistema global de lucha contra la

ciberdelincuencia, que sigue siendo una prioridad para el gobierno estadounidense. Los esfuerzos
por conseguir un rastreador de la web profunda se han materializado en 2014 con el desarrollo
del motor de búsqueda Memex directamente salido de los laboratorios de la Darpa.

Memex ha desmantelado con éxito una red de traficantes
de personas. Durante la final de la Super Bowl.
• Los algoritmos de Memex se utilizaron para detectar

paginas Web relacionadas con ofertas de prostitución.
Sus herramientas de visualización y análisis capturan los
datos invisibles desde la web profunda y dibujar y
mapear una gráfica de la relación que une estos datos.

Un nicho donde se encuentran las
peores cosas posibles: ventas de
drogas ilícitas, pornografía, armas, y
hasta asesinos a sueldo. Se dice que
en la Deep Web no se navega, se
bucea. No tiene buscadores, sino
algunos sitios de referencia para
comenzar la búsqueda como la
Hidden Wiki, y hay que tener mucho
cuidado con lo que se busca, pues
puedes encontrarte con algo que no
quieres ver o algo que otros no
quieren que veas.

La economía sumergida abarca dos áreas:

• Economía informal o irregular, es actividad económica legal aunque
oculta a efectos registrales por razones de elusión fiscal o de control
administrativo. cuya regularización constituye el grueso del trabajo de
cuerpos funcionariales como los de Inspectores de Hacienda e
Inspectores de Trabajo; y

• Economía ilegal, por contra, lo es por su propia naturaleza, por

ejemplo, el tráfico de drogas y armas, crimen organizado, terrorismo y
la prostitución. Cuya represión es competencia, sobre todo, de los
órganos de la Justicia, la Policía, etc., y organismos
intergubernamentales especializados.

Mercado negro

• Mercado negro o economía subterránea es el término utilizado para

describir la venta clandestina e ilegal de bienes, productos o servicios,
violando la fijación de precios o el racionamiento impuesto por el
gobierno o las empresas.

• A nivel mundial, se estima que la economía sumergida ha

proporcionado 1800 millones de puestos de trabajo.

Nivel 0: El Web común

Este nivel es el que navegar todos los
días: YouTube, Facebook, Wikipedia y
otros sitios famosos o de fácil acceso se
puede encontrar aquí.

Nivel 1: El web de superficie

• Este nivel es accesible por medios normales, pero contiene los sitios
web "oscuro" como Reddit. Digg, servicio de dirección temporal de
Email, los inchas de zombies y vampiros, alojamiento web, bases de
datos MySQL, etc ...

Nivel 2: Bergie Web

• Normalmente, este es el último nivel de acceso libre: En este nivel,

usted puede encontrar los sitios "underground", pero aún no
indexado como 4chan, Freehive, 1eden, Let Me Watch This, Hell
bound, Black Hat Worldo incluso servidores FTP, servidores web
cargados, resultados de búsqueda google bloqueadas, honeypots ...
Mas o menos el 99% de Internet.

Nivel 3: The Deep Web

A partir de aquí las cosas se están poniendo
serias. Para acceder a esta parte de la web, debe
tener un proxy o TOR. Este es el inicio del buceo
en la web profunda.
El contenido de la web profunda sigue siendo
heterogéneo. Se encuentra grandes bases de
datos, bibliotecas voluminosas no indexadas por
los motores debido a su tamaño, páginas
efímeras, mal construidas, con muy poco tráfico
o voluntariamente hechas inaccesibles por los
motores tradicionales.
Los motores de búsqueda convencionales como
Google, utilizan algoritmos de indexación
basados en el Pagerank que se basan en una
medida de la popularidad del sitio o de la página.

1993

Privacidad

Th$jHTo%46 : Corto y difícil de recordar.

Si alguien llama a tu puerta, amiga mía, y algo en tu
sangre late y no reposa y en tu tallo de agua,
temblorosa, la fuente es una líquida de armonía.: muy
fácil de recordar y difícil de adivinar para un atacante

Como acceder a los sitios de la web profunda

• De hecho, todo depende de
  • Links de descarga
http://lwp-l.com/pdf12419

Comentarios de: Qué es la Deep Web? (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad