Python - PyPdf escribe en una sola linea

   
Vista:

PyPdf escribe en una sola linea

Publicado por Álvaro (1 intervención) el 11/10/2012 12:54:38
Hola a todos,

estoy intentando convertir un PDF a TXT utilizando el módulo de Python pyddf.
El codigo que tengo es este:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def getPDFContent(path):
    content = ""
    p = file(path, "rb")
    pdf = pyPdf.PdfFileReader(p)
    num_pages = pdf.getNumPages()
    for i in range(0, num_pages):
 
                  content += pdf.getPage(i).extractText() + "\n"
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content
 
 
#MAIN DEL PROGRAMA
nombreFichero = sys.argv[1]
 
f = open('temp.txt','w')
f.write(getPDFContent(nombreFichero).encode("ascii", "xmlcharrefreplace"))
f.close()


Si bien el programa funciona observo que me escribe todo el contenido de cada hoja en una misma línea y me gustaría saber si hay alguna manera de escribir el contenido siguiendo la misma estructura de lineas.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de xve

PyPdf escribe en una sola linea

Publicado por xve (1230 intervenciones) el 23/11/2012 08:48:28
Hola Álvaro, prueba a utilizar writelines() o a poner un salto de linea al final de write() algo así:

1
f.write(getPDFContent(nombreFichero).encode("ascii", "xmlcharrefreplace")+"\n")


Coméntanos, ok?
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar