Código de Python - Script para detectar si una pagina web o imagen de Internet cambia

Imágen de perfil

Script para detectar si una pagina web o imagen de Internet cambiagráfica de visualizaciones


Python

Publicado el 23 de Mayo del 2016 por xve
1.020 visualizaciones desde el 23 de Mayo del 2016. Una media de 42 por semana
Este simple script, sirve para detectar si una pagina web, imagen, hoja de estilos, o cualquier archivo de Internet ha modificado.
Lo que hace, es que guarda una copia del mismo para posteriormente realizar una comprobación del tamaño y del MD5 del mismo.

Requerimientos

Python 2.7

Versión 1.0

Actualizado el 24 de Mayo del 2016 (Creado el 23 de Mayo del 2016)gráfica de visualizaciones de la versión: Versión 1.0
1.021 visualizaciones desde el 23 de Mayo del 2016. Una media de 42 por semana
estrellaestrellaestrellaestrellaestrella
estrellaestrellaestrellaestrella
estrellaestrellaestrella
estrellaestrella
estrella

tiene que existir una carpeta con el nombre "files" en la carpeta donde se ejecute el script. Este carpeta contendrá una copia del archivo para determinar si ha modificado.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
# -*- coding: UTF-8 -*-
 
import os
import pycurl
import sys
import shutil
import hashlib
 
# Lista que contiene las direcciones a revisar
files=[
	"http://www.lawebdelprogramador.com",
	"http://www.lawebdelprogramador.com/usr/147000/147685/profileImage_origin.jpg",
]
 
def body(buf):
    global captureBody
    captureBody=captureBody+buf
 
## Callback function invoked when header data is ready
def header(buf):
    global captureHeader
    captureHeader=captureHeader+buf
 
def isOk(header):
	"""
	this function find in the header if exist the text "200 OK"
	"""
	for line in header.splitlines():
		if line.find("200 OK")>0:
			return True
	return False
 
for url in files:
	if url:
		print "------------------------"
		print url
		captureBody=""
		captureHeader=""
		c = pycurl.Curl()
		c.setopt(pycurl.URL, url)
		c.setopt(pycurl.WRITEFUNCTION, body)
		c.setopt(pycurl.HEADERFUNCTION, header)
		# Mostramos por pantalla toda la info para poder debugar el codigo
		# c.setopt(pycurl.VERBOSE, 1)
		c.perform()
		c.close()
 
		if isOk(captureHeader):
			fileName=url.split("/")[-1]
 
			# save the file
			f=file(fileName,"w")
			f.write(captureBody)
			f.close()
 
			# compare files
			if(os.path.exists(os.path.join(sys.path[0],"files",fileName))):
				print "exists"
				if hashlib.md5(file(fileName).read()).hexdigest()==hashlib.md5(file(os.path.join("files",fileName)).read()).hexdigest() and os.path.getsize(fileName)==os.path.getsize(os.path.join("files",fileName)):
					print "same"
				else:
					print "different"
					print "moved"
					shutil.move(fileName,os.path.join("files",fileName))
			else:
				print "Not exists"
				print "moved"
				shutil.move(fileName,os.path.join("files",fileName))
		else:
			print "Error download"



Comentarios sobre la versión: Versión 1.0 (0)


No hay comentarios
 

Comentar la versión: Versión 1.0

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios

http://lwp-l.com/s3536