Python - Eliminar parte de un texto en Python

   
Vista:

Eliminar parte de un texto en Python

Publicado por Almuki87 (7 intervenciones) el 15/12/2015 10:59:17
Hola,

Tengo un problemilla con unos archivos html que tengo que tratar y dejar lo más limpios posible.

Estoy utilizando html2txt y funciona bastante bien para eliminar las etiquetas propias de html, el problema es que al principio de los archivos tengo una cabecera enooooorme en javascript y no consigo quitarla.

He pensado en construir un método que elimine el texto hasta donde está el texto que me sería útil en concreto hasta una etiqueta llamada <h2, después pasar el texto bueno a un archivo y a ese archivo pasarle el filtro html2txt para que limpie las etiquetas html.

El problema es que no sé cómo eliminar el texto hasta ese punto y me estoy volviendo loca intentándolo de distintas maneras.

Alguien podría ayudarme?

Gracias
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de xve

Eliminar parte de un texto en Python

Publicado por xve (1237 intervenciones) el 15/12/2015 20:44:20
Hola, mirate este código...
http://www.lawebdelprogramador.com/codigo/Python/2621-Analizador-del-contenido-de-una-pagina-web.html

Te devuelve entre otras cosas, el contenido exacto del archivo sin html.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

Eliminar parte de un texto en Python

Publicado por Madoko (11 intervenciones) el 15/12/2015 23:55:56
En el curso que he hecho usabamos la libreria urllib

1
2
3
4
5
import urllib
url = raw_input('Enter location: ')
uh = urllib.urlopen(url)
data = uh.read()
print data

te dejo un pequeño ejemplo, quedaría hacer la limpieza
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar