Código de Python - Analizar las urls de los archivos sitemap.xml

Imágen de perfil

Analizar las urls de los archivos sitemap.xmlgráfica de visualizaciones


Python

Publicado el 08 de Octubre del 2017 por xve
601 visualizaciones desde el 08 de Octubre del 2017. Una media de 21 por semana
Este código muestra como leer las urls de los archivos sitemap.xml de una web y verificar que la dirección exista.

Requerimientos

Python 3.x

Versión 1.0

Actualizado el 17 de Noviembre del 2017 (Publicado el 08 de Octubre del 2017)gráfica de visualizaciones de la versión: Versión 1.0
602 visualizaciones desde el 08 de Octubre del 2017. Una media de 21 por semana
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
# -*- coding: UTF-8 -*-
 
from xml.dom import minidom
import sys,os
 
import http.client
from urllib.parse import urlparse
 
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
 
countRows=0
errors=0
 
for fileName in os.listdir(sys.path[0]):
	if fileName[-4:]==".xml":
		print("-----",fileName,"-----")
		xmldoc=minidom.parse(fileName)
		itemlist = xmldoc.getElementsByTagName("loc")
		for i in itemlist:
			url=i.firstChild.nodeValue
 
			parse=urlparse(url)
 
			if parse.scheme=="http":
				conn = http.client.HTTPConnection(parse.netloc)
			elif parse.scheme=="https":
				conn = http.client.HTTPSConnection(parse.netloc)
			else:
				print("Error",url)
				continue
 
			conn.request("GET", parse.path)
			r1 = conn.getresponse()
 
			if r1.status!=200:
				errors+=1
				print(r1.status, r1.reason, url)
 
			countRows+=1
			sys.stdout.write("countRows/errors: %s/%s         \r" % (countRows,errors))
			sys.stdout.flush()



Comentarios sobre la versión: Versión 1.0 (0)


No hay comentarios
 

Comentar la versión: Versión 1.0

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad

http://lwp-l.com/s4250  
Revisar política de publicidad