Programación crawler
Publicado por Toni (35 intervenciones) el 03/05/2019 16:41:23
Buenas tardes,
tengo que programar un crawler de la siguiente manera:
CoinMarketCap (https://coinmarketcap.com/) es una web con contenido acerca de las 100 criptomonedas
con más capitalización de mercado. Tengo que programar un crawler que extraiga los nombres y la capitalización de todas les monedas que se muestran en CoinMarketCap. Para ello, sólo hay que modificar dos líneas de código:
- la URL de inicio.
- la expresión XPath que selecciona el contenido a capturar.
El código sería el siguiente:
¿Alguien sabe cómo completar el código (incluir la URL a analizar e incluir el xpath que retorna el nombre y la capitalización de las monedas)?
Muchas gracias por la ayuda.
tengo que programar un crawler de la siguiente manera:
CoinMarketCap (https://coinmarketcap.com/) es una web con contenido acerca de las 100 criptomonedas
con más capitalización de mercado. Tengo que programar un crawler que extraiga los nombres y la capitalización de todas les monedas que se muestran en CoinMarketCap. Para ello, sólo hay que modificar dos líneas de código:
- la URL de inicio.
- la expresión XPath que selecciona el contenido a capturar.
El código sería el siguiente:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import scrapy
from scrapy.crawler import CrawlerProcess
class toni_spider(scrapy.Spider):
name = "toni_spider"
# Indicamos la URL que queremos analizar.
# Aquí hay que incluir la URL de inicio:
start_urls = [
""
]
def parse(self, response):
# Extraemos el nombre de la moneda.
# Aquí hay que incluir la expresión 'xpath' que nos retorna los nombres de las monedas.
for currency in response.xpath(''):
yield {
'currency': currency.extract()
}
if __name__ == "__main__":
# Creamos un crawler.
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
'DOWNLOAD_HANDLERS': {'s3': None},
'LOG_ENABLED': False
})
# Inicializamos el crawler con nuestra araña.
process.crawl(toni_spider)
# Lanzamos la araña.
process.start()
¿Alguien sabe cómo completar el código (incluir la URL a analizar e incluir el xpath que retorna el nombre y la capitalización de las monedas)?
Muchas gracias por la ayuda.
Valora esta pregunta
0