Código de Python - Descargar unas urls concretas de una pagina web

Pos: 9

Val: 666

Ha disminuido 1 puesto en Python (en relación al último mes)

Descargar unas urls concretas de una pagina web

Python

Publicado el 8 de Julio del 2014 por Xavi (548 códigos)

2.937 visualizaciones desde el 8 de Julio del 2014

Este código muestra como se pueden descargar de una página web unas urls en concreto, para este ejemplo, se descargan únicamente las urls que en su texto es "Sockshare"

Versión 1

Publicado el 8 de Julio del 2014

2.938 visualizaciones desde el 8 de Julio del 2014

# -*- coding: utf-8 -*-

import urllib

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

	urls=[]

	def handle_starttag(self, tag, attrs):

		# Esta función se ejecuta cada vez que se encuentra un nuevo tag

		# ya se a, li, table, p, ...

		if tag=="a":

			# Revisamos la lista de atributos

			for name, value in attrs:

				# Si href esta definido

				if name == "href":

					# guardamos la url por si el contenido coincide con lo que

					# buscamos

					self.url=value

	def handle_data(self,data):

		# Esta función se ejecuta cada vez que encuentra contenido en medio

		# de un tag de html.

		# Si el contenido en medio del tag es sockshare, guaramos el enlace

		if data=="Sockshare":

			self.urls.append(self.url)

parser = MyHTMLParser()

myurl='http://rlssource.net'

parser.feed(urllib.urlopen(myurl).read())

# mostramos el listado de urls que coinciden

print parser.urls

Comentarios sobre la versión: Versión 1 (0)

No hay comentarios

Comentar la versión: Versión 1


Nombre

Correo (no se visualiza en la web)

Valoración

Comentarios...

CerrarCerrar

Es necesario revisar y aceptar las políticas de privacidad

Acepto las políticas de privacidad

http://lwp-l.com/s2712

Juego del domino desde consola

Obtener el peso de una pagina web en relación a su contenido para SEO

Código de Python - Descargar unas urls concretas de una pagina web

Versión 1

Comentarios sobre la versión: Versión 1 (0)

Comentar la versión: Versión 1

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.