C/Visual C - obtener links de una página web des de C++

obtener links de una página web des de C++

Publicado por Ximo (4 intervenciones) el 12/03/2003 17:49:17

hola a todos, mi pregunta es la siguiente:

como puedo obtener los links de una página web des de mi programa en C++.

gracias por la ayuda

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

Cómo obtener los enlaces de una página web desde un programa en C++

Publicado por Alejandro (1153 intervenciones) el 09/05/2025 20:07:10

Para obtener los enlaces (URLs) de una página web desde un programa en C++, puedes seguir estos pasos:

1. Realizar una solicitud HTTP: Utiliza una biblioteca como `libcurl` para realizar una solicitud HTTP y obtener el contenido HTML de la página web.

2. Parsear el HTML: Una vez que tengas el contenido HTML, puedes usar expresiones regulares o una biblioteca de análisis de HTML como `Gumbo` para extraer los enlaces de los elementos `<a>`.

3. Almacenar los enlaces: Guarda los enlaces extraídos en una lista o vector para su posterior uso.

Aquí tienes un ejemplo básico utilizando `libcurl` y expresiones regulares para extraer los enlaces:

#include <iostream>

#include <string>

#include <vector>

#include <curl/curl.h>

#include <regex>

size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp) {

    ((std::string*)userp)->append((char*)contents, size * nmemb);

    return size * nmemb;

std::vector<std::string> ExtractLinks(const std::string& html) {

    std::vector<std::string> links;

    std::regex url_regex(R"(<a\s+(?:[^>]*?\s+)?href="([^"]*)")");

    std::smatch url_match;

    std::string::const_iterator search_start(html.cbegin());

    while (std::regex_search(search_start, html.cend(), url_match, url_regex)) {

        links.push_back(url_match[1]);

        search_start = url_match.suffix().first;

    return links;

int main() {

    CURL* curl;

    CURLcode res;

    std::string readBuffer;

    curl_global_init(CURL_GLOBAL_DEFAULT);

    curl = curl_easy_init();

    if (curl) {

        curl_easy_setopt(curl, CURLOPT_URL, "https://www.ejemplo.com");

        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);

        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

        res = curl_easy_perform(curl);

        curl_easy_cleanup(curl);

        if (res == CURLE_OK) {

            std::vector<std::string> links = ExtractLinks(readBuffer);

            std::cout << "Enlaces encontrados:\n";

            for (const auto& link : links) {

                std::cout << link << std::endl;

        } else {

            std::cerr << "Error al realizar la solicitud: " << curl_easy_strerror(res) << std::endl;

    curl_global_cleanup();

    return 0;

Notas:

- Asegúrate de tener `libcurl` instalado y configurado en tu proyecto.
- Este código realiza una solicitud a la URL especificada y extrae todos los enlaces de la página utilizando una expresión regular.
- Puedes modificar la expresión regular según sea necesario para adaptarse a diferentes formatos de enlaces.

Espero que esto te ayude a obtener los enlaces de la página web que necesitas. ¡Buena suerte, Ximo!

Valora esta respuesta

Me gusta: Está respuesta es útil y esta clara

No me gusta: Está respuesta no esta clara o no es útil

Comentar