Python - Codificacion caracteres

   
Vista:

Codificacion caracteres

Publicado por Dani (1 intervención) el 16/07/2010 12:40:51
Buenas

Estoy intentando crear una funcion que reciba un string( del tipo que sea ) y lo convierta a unicode eliminando tags html, caracteres raros....

El problema es que la salida no siempre es unicode.

Soy bastante nuevo en python y estoy un poco perdido con esto de la codificación

def HTMLtoText(self,html):
try:
val = html.decode('ascii')
except:
try:
val = unicode(html).encode("utf-8")
except UnicodeDecodeError:
val = html

#Eliminar todos los tags de html
p = re.compile(r'<.*?>')
val = p.sub('', val)
#Eliminar dobles espacios
p = re.compile(r'\s+')
val = p.sub(' ', val)

val = val.replace("\n","").replace("\r","").strip()

return val
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder