Código de Python - Descargar unas urls concretas de una pagina web

Versión 1

Publicado el 8 de Julio del 2014gráfica de visualizaciones de la versión: Versión 1
2.749 visualizaciones desde el 8 de Julio del 2014
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# -*- coding: utf-8 -*-
 
import urllib
from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
	urls=[]
 
	def handle_starttag(self, tag, attrs):
		# Esta función se ejecuta cada vez que se encuentra un nuevo tag
		# ya se a, li, table, p, ...
		if tag=="a":
			# Revisamos la lista de atributos
			for name, value in attrs:
				# Si href esta definido
				if name == "href":
					# guardamos la url por si el contenido coincide con lo que
					# buscamos
					self.url=value
 
	def handle_data(self,data):
		# Esta función se ejecuta cada vez que encuentra contenido en medio
		# de un tag de html.
		# Si el contenido en medio del tag es sockshare, guaramos el enlace
		if data=="Sockshare":
			self.urls.append(self.url)
 
parser = MyHTMLParser()
myurl='http://rlssource.net'
parser.feed(urllib.urlopen(myurl).read())
 
# mostramos el listado de urls que coinciden
print parser.urls



Comentarios sobre la versión: Versión 1 (0)


No hay comentarios
 

Comentar la versión: Versión 1

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad

http://lwp-l.com/s2712