Codificacion caracteres
Publicado por Dani (1 intervención) el 16/07/2010 12:40:51
Buenas
Estoy intentando crear una funcion que reciba un string( del tipo que sea ) y lo convierta a unicode eliminando tags html, caracteres raros....
El problema es que la salida no siempre es unicode.
Soy bastante nuevo en python y estoy un poco perdido con esto de la codificación
def HTMLtoText(self,html):
try:
val = html.decode('ascii')
except:
try:
val = unicode(html).encode("utf-8")
except UnicodeDecodeError:
val = html
#Eliminar todos los tags de html
p = re.compile(r'<.*?>')
val = p.sub('', val)
#Eliminar dobles espacios
p = re.compile(r'\s+')
val = p.sub(' ', val)
val = val.replace("\n","").replace("\r","").strip()
return val
Estoy intentando crear una funcion que reciba un string( del tipo que sea ) y lo convierta a unicode eliminando tags html, caracteres raros....
El problema es que la salida no siempre es unicode.
Soy bastante nuevo en python y estoy un poco perdido con esto de la codificación
def HTMLtoText(self,html):
try:
val = html.decode('ascii')
except:
try:
val = unicode(html).encode("utf-8")
except UnicodeDecodeError:
val = html
#Eliminar todos los tags de html
p = re.compile(r'<.*?>')
val = p.sub('', val)
#Eliminar dobles espacios
p = re.compile(r'\s+')
val = p.sub(' ', val)
val = val.replace("\n","").replace("\r","").strip()
return val
Valora esta pregunta
0