Código de Python - Descargar unas urls concretas de una pagina web

Imágen de perfil

Descargar unas urls concretas de una pagina webgráfica de visualizaciones


Python

Publicado el 08 de Julio del 2014 por Xavi
1.088 visualizaciones desde el 08 de Julio del 2014. Una media de 14 por semana
Este código muestra como se pueden descargar de una página web unas urls en concreto, para este ejemplo, se descargan únicamente las urls que en su texto es "Sockshare"

Versión 1

Publicado el 08 de Julio del 2014gráfica de visualizaciones de la versión: Versión 1
1.089 visualizaciones desde el 08 de Julio del 2014. Una media de 14 por semana
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# -*- coding: utf-8 -*-
 
import urllib
from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
	urls=[]
 
	def handle_starttag(self, tag, attrs):
		# Esta función se ejecuta cada vez que se encuentra un nuevo tag
		# ya se a, li, table, p, ...
		if tag=="a":
			# Revisamos la lista de atributos
			for name, value in attrs:
				# Si href esta definido
				if name == "href":
					# guardamos la url por si el contenido coincide con lo que
					# buscamos
					self.url=value
 
	def handle_data(self,data):
		# Esta función se ejecuta cada vez que encuentra contenido en medio
		# de un tag de html.
		# Si el contenido en medio del tag es sockshare, guaramos el enlace
		if data=="Sockshare":
			self.urls.append(self.url)
 
parser = MyHTMLParser()
myurl='http://rlssource.net'
parser.feed(urllib.urlopen(myurl).read())
 
# mostramos el listado de urls que coinciden
print parser.urls



Comentarios sobre la versión: Versión 1 (0)


No hay comentarios
 

Comentar la versión: Versión 1

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios

http://lwp-l.com/s2712