XML - Grabar archivo

Grabar archivo

Publicado por Rolando (1 intervención) el 25/09/2003 19:17:08

Necesito extraer de una direccion una página cada una hora y grabarla como cccxx.xml, la idea es actualmente lo hago de forma manual, y necesito bajarla de forma automatica para que la informacion se actualize sola. Como puedo hacerlo????

Siendo mas claro la direccion ke tengo luego le pongo "Archivo/Guardar como..." y le doy el nombre cccxx.xml

Pero necesito automatizar este proceso.

Gracias. Salu2, Rola.

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

Automatización de extracción y guardado de página web como archivo XML

Publicado por Alejandro (258 intervenciones) el 10/07/2023 16:37:27

Para automatizar el proceso de extracción de una página web cada hora y guardarla como un archivo XML, puedes utilizar un lenguaje de programación como Python y una biblioteca como BeautifulSoup para realizar la extracción y guardar los datos en un archivo XML. Aquí tienes un ejemplo de cómo puedes hacerlo:

1. Instala las bibliotecas necesarias:
- BeautifulSoup: `pip install beautifulsoup4`
- Requests: `pip install requests`

2. Crea un archivo Python, por ejemplo, "extractor.py", y añade el siguiente código:

import requests

from bs4 import BeautifulSoup

import time

# URL de la página que deseas extraer

url = "http://www.ejemplo.com"  # Reemplaza con tu dirección URL

# Función para extraer y guardar la página como un archivo XML

def extraer_y_guardar():

    # Realizar la solicitud HTTP

    response = requests.get(url)

    if response.status_code == 200:

        # Crear el objeto BeautifulSoup para analizar el contenido HTML

        soup = BeautifulSoup(response.content, "html.parser")

        # Generar el nombre de archivo con un timestamp actual

        nombre_archivo = time.strftime("cccxx_%Y%m%d%H%M%S.xml")

        # Guardar el contenido extraído como un archivo XML

        with open(nombre_archivo, "w", encoding="utf-8") as archivo:

            archivo.write(soup.prettify())

        print(f"La página ha sido extraída y guardada como {nombre_archivo}")

    else:

        print("No se pudo acceder a la página")

# Ejecutar la función cada hora

while True:

    extraer_y_guardar()

    time.sleep(3600)  # Esperar 1 hora (3600 segundos)

3. Reemplaza la variable `url` con la dirección URL de la página que deseas extraer.

4. Guarda el archivo y ejecútalo en tu entorno de Python. Esto comenzará a extraer la página cada hora y guardarla como un archivo XML con un nombre único basado en la fecha y hora actual.

Ten en cuenta que este código solo extraerá el contenido HTML de la página y lo guardará en un archivo XML. Si la página contiene datos estructurados en un formato específico, es posible que necesites realizar un análisis adicional y manipulación del contenido para generar un archivo XML más estructurado.

Recuerda cumplir con las políticas y términos de servicio del sitio web que estás extrayendo para asegurarte de que estás autorizado a hacerlo y no violas ningún derecho de autor o restricción del sitio.

Valora esta respuesta

Me gusta: Está respuesta es útil y esta clara

No me gusta: Está respuesta no esta clara o no es útil

Comentar