PHP - Obtener HTML con ligas completas de paginas hechas

Obtener HTML con ligas completas de paginas hechas

Publicado por saku (11 intervenciones) el 07/12/2010 03:56:55

Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.

toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).

las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:

<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>

a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?

saludos gracias

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

Respuesta automatica desde archivo

SISTEMA DE USUARIO PHP