Python - Recuperar el texto de una pagina web

 
Vista:
sin imagen de perfil
Val: 31
Ha disminuido su posición en 2 puestos en Python (en relación al último mes)
Gráfica de Python

Recuperar el texto de una pagina web

Publicado por Josafat (18 intervenciones) el 28/09/2018 04:43:09
Hola, tengo un problema con un programa que estoy realizando, la idea es que con la librería de beautifulsoup descarge una pagina web para después guardar en un txt todo el texto que haya en la página, sin etiquetas ni código.
El problema es que además del texto me guarda todo el código que esté comentado
p/e
#<br>
Igual descarga otro código como puede ser php y javascript y no hacer que ese tipo de texto no lo guarde.
Esté es mi código:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import bs4 as bs
from bs4 import BeautifulSoup
import urllib.request
import os
 
url=input("URL: ")
palabra = input("Palabra:")
sauce=urllib.request.urlopen(url).read()
 
soup = BeautifulSoup(sauce, 'html.parser')
print(soup.get_text())
txt=soup.get_text()
file = open("texto.txt", "w")
file.write(txt)
file.close()
cont=0
 
for line in open("texto.txt"):
	if palabra in line:
		print (line)
		cont=cont+1
 
print ("La palabra: \"",palabra,"\" se repite", cont," veces.")
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder