###########################################
#!/usr/bin/perl5 ####Comienzo del script el # al principio es importante
##################################################
#Perl
#Este script baja una pagina que corresponde a una
#lista de noticias. Abre la pagina y extrae todas las urls
#correspondientes a noticias y baja cada una de ellas.
#Se utiliza por la shell de Linux Redhat.."seguramente se puede utilizar
#en otras versiones de Linux."
##################################################
$url = "http://www.analitica.com";
##################################################
$dowload = "http://www.analitica.com/va/politica/opinion/default.asp"; #
Pagina que será descargada
##################################################
#wget es un emulador de browser que permite hacer este tipo de descarga
`wget $dowload -O politica.htm`;
##################################################
$file = "politica.htm"; #Pasamos el nombre de archivo htm a una variable
##################################################
open(INPUT,"$file"); # Hacemos un open del archivo
##################################################
@lines =<INPUT>; # Pasamos el puntero de Archivo a un Arreglo, cada una de
las lineas esta en una posición del arreglo
##################################################
##Creamos un ciclo para leer una a una las lineas del archivo
foreach $lines (@lines)
{
$line =~s/^M//gi; #### Quitamos los enter
($link) = $lines =~/href\=\"(.*\w\d+\.asp)\"/gi; #
Expresión Regular que extrae las url
if($link) ###si existe una url
{
print "Bajando Archivo: $url$link\n"; # Imprime la
Ruta Completa de la descarga
`wget $url$link`; ##descargando archivo...puede
demorar un poco dependiendo del tamaño de la pagina
$link = ""; ##Limpiamos la variable
}
}
close (INPUT); ###Cerramos el archivo
Comentarios sobre la versión: Versión 1 (1)
[email protected]$ wget www.esdebian.org