XML - Grabar archivo

 
Vista:

Grabar archivo

Publicado por Rolando (1 intervención) el 25/09/2003 19:17:08
Necesito extraer de una direccion una página cada una hora y grabarla como cccxx.xml, la idea es actualmente lo hago de forma manual, y necesito bajarla de forma automatica para que la informacion se actualize sola. Como puedo hacerlo????

Siendo mas claro la direccion ke tengo luego le pongo "Archivo/Guardar como..." y le doy el nombre cccxx.xml

Pero necesito automatizar este proceso.

Gracias. Salu2, Rola.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de Alejandro

Automatización de extracción y guardado de página web como archivo XML

Publicado por Alejandro (258 intervenciones) el 10/07/2023 16:37:27
Para automatizar el proceso de extracción de una página web cada hora y guardarla como un archivo XML, puedes utilizar un lenguaje de programación como Python y una biblioteca como BeautifulSoup para realizar la extracción y guardar los datos en un archivo XML. Aquí tienes un ejemplo de cómo puedes hacerlo:

1. Instala las bibliotecas necesarias:
- BeautifulSoup: `pip install beautifulsoup4`
- Requests: `pip install requests`

2. Crea un archivo Python, por ejemplo, "extractor.py", y añade el siguiente código:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import requests
from bs4 import BeautifulSoup
import time
 
# URL de la página que deseas extraer
url = "http://www.ejemplo.com"  # Reemplaza con tu dirección URL
 
# Función para extraer y guardar la página como un archivo XML
def extraer_y_guardar():
    # Realizar la solicitud HTTP
    response = requests.get(url)
 
    if response.status_code == 200:
        # Crear el objeto BeautifulSoup para analizar el contenido HTML
        soup = BeautifulSoup(response.content, "html.parser")
 
        # Generar el nombre de archivo con un timestamp actual
        nombre_archivo = time.strftime("cccxx_%Y%m%d%H%M%S.xml")
 
        # Guardar el contenido extraído como un archivo XML
        with open(nombre_archivo, "w", encoding="utf-8") as archivo:
            archivo.write(soup.prettify())
 
        print(f"La página ha sido extraída y guardada como {nombre_archivo}")
    else:
        print("No se pudo acceder a la página")
 
# Ejecutar la función cada hora
while True:
    extraer_y_guardar()
    time.sleep(3600)  # Esperar 1 hora (3600 segundos)

3. Reemplaza la variable `url` con la dirección URL de la página que deseas extraer.

4. Guarda el archivo y ejecútalo en tu entorno de Python. Esto comenzará a extraer la página cada hora y guardarla como un archivo XML con un nombre único basado en la fecha y hora actual.

Ten en cuenta que este código solo extraerá el contenido HTML de la página y lo guardará en un archivo XML. Si la página contiene datos estructurados en un formato específico, es posible que necesites realizar un análisis adicional y manipulación del contenido para generar un archivo XML más estructurado.

Recuerda cumplir con las políticas y términos de servicio del sitio web que estás extrayendo para asegurarte de que estás autorizado a hacerlo y no violas ningún derecho de autor o restricción del sitio.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar