Código de Perl - Descargar lista noticias

Descargar lista noticiasgráfica de visualizaciones


Perl

estrellaestrellaestrellaestrellaestrella(1)
Publicado el 14 de Marzo del 2002 por Cristian Lopez Valderrama
12.974 visualizaciones desde el 14 de Marzo del 2002. Una media de 21 por semana
Este script baja una pagina que corresponde a una lista de noticias. Abre la pagina y extrae todas las urls correspondientes a noticias y baja cada una de ellas.
Se utiliza por la shell de Linux Redhat.."seguramente se puede utilizar en otras versiones de Linux."

Versión 1
estrellaestrellaestrellaestrellaestrella(1)

Publicado el 14 de Marzo del 2002gráfica de visualizaciones de la versión: Versión 1
12.975 visualizaciones desde el 14 de Marzo del 2002. Una media de 21 por semana
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
###########################################
 
#!/usr/bin/perl5 ####Comienzo del script el # al principio es importante
 
##################################################
#Perl
#Este script baja una pagina que corresponde a una
#lista de noticias. Abre la pagina y extrae todas las urls
#correspondientes a noticias y baja cada una de ellas.
#Se utiliza por la shell de Linux Redhat.."seguramente se puede utilizar
#en otras versiones de Linux."
##################################################
$url = "http://www.analitica.com";
##################################################
 
$dowload = "http://www.analitica.com/va/politica/opinion/default.asp"; # 
Pagina que será descargada
##################################################
 
#wget es un emulador de browser que permite hacer este tipo de descarga
        `wget $dowload -O politica.htm`;
##################################################
 
$file = "politica.htm"; #Pasamos el nombre de archivo htm a una variable
##################################################
 
open(INPUT,"$file"); # Hacemos un open del archivo
##################################################
 
@lines =<INPUT>; # Pasamos el puntero de Archivo a un Arreglo, cada una de 
las lineas esta en una posición del arreglo
##################################################
 
##Creamos un ciclo para leer una a una las lineas del archivo
foreach $lines (@lines)
{
                 $line =~s/^M//gi; #### Quitamos los enter
                 ($link) = $lines =~/href\=\"(.*\w\d+\.asp)\"/gi; # 
Expresión Regular que extrae las url
                 if($link) ###si existe una url
                 {
                        print "Bajando Archivo: $url$link\n"; # Imprime la 
Ruta Completa de la descarga
                        `wget $url$link`; ##descargando archivo...puede 
demorar un poco dependiendo del tamaño de la pagina
                        $link = ""; ##Limpiamos la variable
                 }
 
}
close (INPUT); ###Cerramos el archivo



Comentarios sobre la versión: Versión 1 (1)

norberto
01 de Diciembre del 2006
estrellaestrellaestrellaestrellaestrella
que chistoso.. nada menos que con wget, se sabe que con wget, descarga paginas completas(html) en el localhost, eejemplo /home/nombre_usuario
usuario@localhost$ wget www.esdebian.org
Responder

Comentar la versión: Versión 1

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios

http://lwp-l.com/s148