Código de Python - Exporta enlaces y imagenes de una pagina web a archivo

<<>>

Versión 1
estrellaestrellaestrellaestrellaestrella(1)

Publicado el 24 de Mayo del 2002gráfica de visualizaciones de la versión: Versión 1
10.434 visualizaciones desde el 24 de Mayo del 2002
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
import re
import sys
# --------------------------------------------------------------------
#                    EXPRESIONES REGULARES
#               JHON ALEXANDER CAMACHO URDINOLA
#                      [email protected].com
#                  LABORATORIO DE LENGUAJES I
#            PONTIFICIA UNIVERSIDAD JAVERIANA CALI
# --------------------------------------------------------------------
 
# --------------------------------------------------------------------
#                    SE ABREN LOS ARCHIVOS
# --------------------------------------------------------------------
 
nombreArchivo = raw_input("Digite el path y el nombre del archivo .html o .htm: ")
try:
    fp = open (nombreArchivo,"r")
except IOError:
    print "NO SE PUDO ABRIR EL ARCHIVO. VERIFIQUE EL PATH O SI EXISTE EL ARCHIVO"
    sys.exit()
 
try:
   reporte = open("C:\Mis documentos\Reporte.dat","w+")
except IOError:
    print "NO SE PUDO CREAR EL ARCHIVO"
    sys.exit()
 
reporte.write("REPORTE DE LOS LINKS E IMAGENES\nCREADO POR JHON ALEXANDER CAMACHO U.\n")
reporte.write("------------------------------------\n\n")
 
# --------------------------------------------------------------------
#                       EXPRESIÓN REGULAR
# --------------------------------------------------------------------
 
def expresion_reg_link(texto):
    resultadoLink = re.compile( "(<[L l][I i][N n][K k].*?>)",re.DOTALL)
    reporte.write("LOS LINKS DE LA PÁGINA SON:\n\n")
    i = 0
    while i < len( resultadoLink.findall( texto ) ):
        reporte.write( resultadoLink.findall( texto )[i])
        reporte.write( "\n" )
        i = i + 1
 
def expresion_reg_img(texto):
    resultadoImg = re.compile( "(<[I i][M m][G g].*?>)",re.DOTALL)
    reporte.write("\n\nLAS IMÁGENES DE LA PÁGINA SON:\n\n")
 
    i = 0
    while i < len( resultadoImg.findall( texto ) ):
        reporte.write( resultadoImg.findall( texto )[i])
        reporte.write( "\n" )
        i = i + 1
 
# --------------------------------------------------------------------
#                           PROGRAMA
# --------------------------------------------------------------------
 
texto = fp.read()
expresion_reg_link(texto)
expresion_reg_img(texto)
fp.close()
reporte.close()



Comentarios sobre la versión: Versión 1 (1)

27 de Enero del 2010
estrellaestrellaestrellaestrellaestrella
ME GUSTARIA QUE PUSIERAS COMO FUNCIONA ESTO LA VERDAD NO ENTIENDO NADA DE LO QUE DICE EL ARCHIVO
Responder

Comentar la versión: Versión 1

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad

http://lwp-l.com/s199