# -*- coding: utf-8 -*-
import urllib
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
urls=[]
def handle_starttag(self, tag, attrs):
# Esta función se ejecuta cada vez que se encuentra un nuevo tag
# ya se a, li, table, p, ...
if tag=="a":
# Revisamos la lista de atributos
for name, value in attrs:
# Si href esta definido
if name == "href":
# guardamos la url por si el contenido coincide con lo que
# buscamos
self.url=value
def handle_data(self,data):
# Esta función se ejecuta cada vez que encuentra contenido en medio
# de un tag de html.
# Si el contenido en medio del tag es sockshare, guaramos el enlace
if data=="Sockshare":
self.urls.append(self.url)
parser = MyHTMLParser()
myurl='http://rlssource.net'
parser.feed(urllib.urlopen(myurl).read())
# mostramos el listado de urls que coinciden
print parser.urls
Comentarios sobre la versión: Versión 1 (0)
No hay comentarios