C/Visual C - obtener links de una página web des de C++

 
Vista:

obtener links de una página web des de C++

Publicado por Ximo (4 intervenciones) el 12/03/2003 17:49:17
hola a todos, mi pregunta es la siguiente:

como puedo obtener los links de una página web des de mi programa en C++.

gracias por la ayuda
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de Alejandro

Cómo obtener los enlaces de una página web desde un programa en C++

Publicado por Alejandro (1153 intervenciones) el 09/05/2025 20:07:10
Para obtener los enlaces (URLs) de una página web desde un programa en C++, puedes seguir estos pasos:

1. Realizar una solicitud HTTP: Utiliza una biblioteca como `libcurl` para realizar una solicitud HTTP y obtener el contenido HTML de la página web.

2. Parsear el HTML: Una vez que tengas el contenido HTML, puedes usar expresiones regulares o una biblioteca de análisis de HTML como `Gumbo` para extraer los enlaces de los elementos `<a>`.

3. Almacenar los enlaces: Guarda los enlaces extraídos en una lista o vector para su posterior uso.

Aquí tienes un ejemplo básico utilizando `libcurl` y expresiones regulares para extraer los enlaces:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
#include <iostream>
#include <string>
#include <vector>
#include <curl/curl.h>
#include <regex>
 
size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp) {
    ((std::string*)userp)->append((char*)contents, size * nmemb);
    return size * nmemb;
}
 
std::vector<std::string> ExtractLinks(const std::string& html) {
    std::vector<std::string> links;
    std::regex url_regex(R"(<a\s+(?:[^>]*?\s+)?href="([^"]*)")");
    std::smatch url_match;
    std::string::const_iterator search_start(html.cbegin());
    while (std::regex_search(search_start, html.cend(), url_match, url_regex)) {
        links.push_back(url_match[1]);
        search_start = url_match.suffix().first;
    }
    return links;
}
int main() {
    CURL* curl;
    CURLcode res;
    std::string readBuffer;
    curl_global_init(CURL_GLOBAL_DEFAULT);
    curl = curl_easy_init();
    if (curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://www.ejemplo.com");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);
        res = curl_easy_perform(curl);
        curl_easy_cleanup(curl);
 
        if (res == CURLE_OK) {
            std::vector<std::string> links = ExtractLinks(readBuffer);
            std::cout << "Enlaces encontrados:\n";
            for (const auto& link : links) {
                std::cout << link << std::endl;
            }
        } else {
            std::cerr << "Error al realizar la solicitud: " << curl_easy_strerror(res) << std::endl;
        }
    }
 
    curl_global_cleanup();
    return 0;
}

Notas:
- Asegúrate de tener `libcurl` instalado y configurado en tu proyecto.
- Este código realiza una solicitud a la URL especificada y extrae todos los enlaces de la página utilizando una expresión regular.
- Puedes modificar la expresión regular según sea necesario para adaptarse a diferentes formatos de enlaces.

Espero que esto te ayude a obtener los enlaces de la página web que necesitas. ¡Buena suerte, Ximo!
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar