Recuperar el texto de una pagina web
Publicado por Josafat (18 intervenciones) el 28/09/2018 04:43:09
Hola, tengo un problema con un programa que estoy realizando, la idea es que con la librería de beautifulsoup descarge una pagina web para después guardar en un txt todo el texto que haya en la página, sin etiquetas ni código.
El problema es que además del texto me guarda todo el código que esté comentado
p/e
#<br>
Igual descarga otro código como puede ser php y javascript y no hacer que ese tipo de texto no lo guarde.
Esté es mi código:
El problema es que además del texto me guarda todo el código que esté comentado
p/e
#<br>
Igual descarga otro código como puede ser php y javascript y no hacer que ese tipo de texto no lo guarde.
Esté es mi código:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import bs4 as bs
from bs4 import BeautifulSoup
import urllib.request
import os
url=input("URL: ")
palabra = input("Palabra:")
sauce=urllib.request.urlopen(url).read()
soup = BeautifulSoup(sauce, 'html.parser')
print(soup.get_text())
txt=soup.get_text()
file = open("texto.txt", "w")
file.write(txt)
file.close()
cont=0
for line in open("texto.txt"):
if palabra in line:
print (line)
cont=cont+1
print ("La palabra: \"",palabra,"\" se repite", cont," veces.")
Valora esta pregunta
0