Código de Python - Exporta enlaces y imagenes de una pagina web a archivo

<<>>

Exporta enlaces y imagenes de una pagina web a archivográfica de visualizaciones


Python

estrellaestrellaestrellaestrellaestrella(1)
Publicado el 24 de Mayo del 2002 por Jhon Alexander Camacho Urdinola
9.117 visualizaciones desde el 24 de Mayo del 2002. Una media de 14 por semana
Este código esporta todos los enlaces y imagenes de una pagina web a una archivo .dat

Versión 1
estrellaestrellaestrellaestrellaestrella(1)

Publicado el 24 de Mayo del 2002gráfica de visualizaciones de la versión: Versión 1
9.118 visualizaciones desde el 24 de Mayo del 2002. Una media de 14 por semana
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
import re
import sys
# --------------------------------------------------------------------
#                    EXPRESIONES REGULARES
#               JHON ALEXANDER CAMACHO URDINOLA
#                      jhacu1@hotmail.com
#                  LABORATORIO DE LENGUAJES I
#            PONTIFICIA UNIVERSIDAD JAVERIANA CALI
# --------------------------------------------------------------------
 
# --------------------------------------------------------------------
#                    SE ABREN LOS ARCHIVOS
# --------------------------------------------------------------------
 
nombreArchivo = raw_input("Digite el path y el nombre del archivo .html o .htm: ")
try:
    fp = open (nombreArchivo,"r")
except IOError:
    print "NO SE PUDO ABRIR EL ARCHIVO. VERIFIQUE EL PATH O SI EXISTE EL ARCHIVO"
    sys.exit()
 
try:
   reporte = open("C:\Mis documentos\Reporte.dat","w+")
except IOError:
    print "NO SE PUDO CREAR EL ARCHIVO"
    sys.exit()
 
reporte.write("REPORTE DE LOS LINKS E IMAGENES\nCREADO POR JHON ALEXANDER CAMACHO U.\n")
reporte.write("------------------------------------\n\n")
 
# --------------------------------------------------------------------
#                       EXPRESIÓN REGULAR
# --------------------------------------------------------------------
 
def expresion_reg_link(texto):
    resultadoLink = re.compile( "(<[L l][I i][N n][K k].*?>)",re.DOTALL)
    reporte.write("LOS LINKS DE LA PÁGINA SON:\n\n")
    i = 0
    while i < len( resultadoLink.findall( texto ) ):
        reporte.write( resultadoLink.findall( texto )[i])
        reporte.write( "\n" )
        i = i + 1
 
def expresion_reg_img(texto):
    resultadoImg = re.compile( "(<[I i][M m][G g].*?>)",re.DOTALL)
    reporte.write("\n\nLAS IMÁGENES DE LA PÁGINA SON:\n\n")
 
    i = 0
    while i < len( resultadoImg.findall( texto ) ):
        reporte.write( resultadoImg.findall( texto )[i])
        reporte.write( "\n" )
        i = i + 1
 
# --------------------------------------------------------------------
#                           PROGRAMA
# --------------------------------------------------------------------
 
texto = fp.read()
expresion_reg_link(texto)
expresion_reg_img(texto)
fp.close()
reporte.close()



Comentarios sobre la versión: Versión 1 (1)

ADNEGEL
27 de Enero del 2010
estrellaestrellaestrellaestrellaestrella
ME GUSTARIA QUE PUSIERAS COMO FUNCIONA ESTO LA VERDAD NO ENTIENDO NADA DE LO QUE DICE EL ARCHIVO
Responder

Comentar la versión: Versión 1

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios

http://lwp-l.com/s199