Python - Recuperar el texto de una pagina web

Pos: 113

Val: 27

Recuperar el texto de una pagina web

Publicado por Josafat (18 intervenciones) el 28/09/2018 04:43:09

Hola, tengo un problema con un programa que estoy realizando, la idea es que con la librería de beautifulsoup descarge una pagina web para después guardar en un txt todo el texto que haya en la página, sin etiquetas ni código.
El problema es que además del texto me guarda todo el código que esté comentado
p/e
#<br>
Igual descarga otro código como puede ser php y javascript y no hacer que ese tipo de texto no lo guarde.
Esté es mi código:

import bs4 as bs

from bs4 import BeautifulSoup

import urllib.request

import os

url=input("URL: ")

palabra = input("Palabra:")

sauce=urllib.request.urlopen(url).read()

soup = BeautifulSoup(sauce, 'html.parser')

print(soup.get_text())

txt=soup.get_text()

file = open("texto.txt", "w")

file.write(txt)

file.close()

cont=0

for line in open("texto.txt"):

	if palabra in line:

		print (line)

		cont=cont+1

print ("La palabra: \"",palabra,"\" se repite", cont," veces.")

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

evaluar un polinomio a partir de una lista

Extraer url de txt