PHP - Obtener HTML con ligas completas de paginas hechas

 
Vista:

Obtener HTML con ligas completas de paginas hechas

Publicado por saku (11 intervenciones) el 07/12/2010 03:56:55
Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.

toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).

las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:

<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>

a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?

saludos gracias
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder