Python - No entiendo BeautifulSoap, ayuda

 
Vista:
sin imagen de perfil

No entiendo BeautifulSoap, ayuda

Publicado por sabe (6 intervenciones) el 21/12/2013 07:25:15
Buenas a todos.
Estoy tratando de entender como extraer datos de una web con BeautifulSoap y urllib2 pero no entiendo como se usa BeautifulSoap. Lei del manual pero sigo sin entender.

Por ejemplo, como decirle a beautiful que quiero de este codigo:

<tr>
<td height="25" bgcolor="#EFEFEF" class="texto_titulo_xl"><div align="center">2000 </div></td>

<td bgcolor="#FFFFCC" class="texto_titulo_xl"><div align="center">3004 </div></td>

<td bgcolor="#EFEFEF" class="texto_titulo_xl"><div align="center">4119 </div></td>

<td bgcolor="#FFFFCC" class="texto_titulo_xl"><div align="center">5720 </div></td>

<td bgcolor="#EFEFEF" class="texto_titulo_xl"><div align="center">6226 </div></td>

<td bgcolor="#FFFFCC" class="texto_titulo_xl"><div align="center">7341 </div></td>
</tr>

el 2000, 3004, 4119, 5720 etc.

Mas que me ayuden con el codigo quiero entender beautifulSoup.

Gracias
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
sin imagen de perfil

No entiendo BeautifulSoap, ayuda

Publicado por francisco (4 intervenciones) el 22/12/2013 20:28:33
no he tocado esa librería pero con el módulo re sería algo así:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import re
 
texto = '''
<tr>
<td height="25" bgcolor="#EFEFEF" class="texto_titulo_xl"><div align="center">2000 </div></td>

<td bgcolor="#FFFFCC" class="texto_titulo_xl"><div align="center">3004 </div></td>

<td bgcolor="#EFEFEF" class="texto_titulo_xl"><div align="center">4119 </div></td>

<td bgcolor="#FFFFCC" class="texto_titulo_xl"><div align="center">5720 </div></td>

<td bgcolor="#EFEFEF" class="texto_titulo_xl"><div align="center">6226 </div></td>

<td bgcolor="#FFFFCC" class="texto_titulo_xl"><div align="center">7341 </div></td>
</tr>
'''
 
texto = re.findall('"center">(.*)</div>',texto)
print texto
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar