Código de Python - Analizar las urls de los archivos sitemap.xml

Requerimientos

Python 3.x

Versión 1.0

Actualizado el 17 de Noviembre del 2017 (Publicado el 8 de Octubre del 2017)gráfica de visualizaciones de la versión: Versión 1.0
1.334 visualizaciones desde el 8 de Octubre del 2017
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
# -*- coding: UTF-8 -*-
 
from xml.dom import minidom
import sys,os
 
import http.client
from urllib.parse import urlparse
 
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
 
countRows=0
errors=0
 
for fileName in os.listdir(sys.path[0]):
	if fileName[-4:]==".xml":
		print("-----",fileName,"-----")
		xmldoc=minidom.parse(fileName)
		itemlist = xmldoc.getElementsByTagName("loc")
		for i in itemlist:
			url=i.firstChild.nodeValue
 
			parse=urlparse(url)
 
			if parse.scheme=="http":
				conn = http.client.HTTPConnection(parse.netloc)
			elif parse.scheme=="https":
				conn = http.client.HTTPSConnection(parse.netloc)
			else:
				print("Error",url)
				continue
 
			conn.request("GET", parse.path)
			r1 = conn.getresponse()
 
			if r1.status!=200:
				errors+=1
				print(r1.status, r1.reason, url)
 
			countRows+=1
			sys.stdout.write("countRows/errors: %s/%s         \r" % (countRows,errors))
			sys.stdout.flush()



Comentarios sobre la versión: Versión 1.0 (0)


No hay comentarios
 

Comentar la versión: Versión 1.0

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad

http://lwp-l.com/s4250