Java - Extraer texto de un pdf con itext

 
Vista:
sin imagen de perfil
Val: 63
Ha aumentado su posición en 2 puestos en Java (en relación al último mes)
Gráfica de Java

Extraer texto de un pdf con itext

Publicado por Camilo (20 intervenciones) el 29/09/2020 05:13:01
Buenas.
Estoy tratando de extraer el texto de un pdf, pero el método que tengo me devuelve null.
Este es el método:

1
2
3
4
5
6
7
8
9
10
11
12
13
public String cargarPdf(File archivoPDF) {
    String texto="";
    try {
        PdfReader reader = new PdfReader(archivoPDF.getPath());
        System.out.println(reader.getNumberOfPages());
        for(int i=0 ; i<reader.getNumberOfPages(); i++) {
            texto= texto+ PdfTextExtractor.getTextFromPage(reader, i);
        }
        reader.close();
    }catch(Exception e) {
        System.out.println("Excepcion cargando pdf" +e.getStackTrace());
    }
    return texto;

Tambien he tratado con PDFBox pero no me sirvió. lo ideal es que no haya problema si el pdf tiene imágenes o alguna otra cosa, sin embargo no me funciona tampoco con un pdf con solo texto.

De antemano gracias.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de Rodrigo
Val: 2.041
Plata
Ha mantenido su posición en Java (en relación al último mes)
Gráfica de Java

Extraer texto de un pdf con itext

Publicado por Rodrigo (623 intervenciones) el 29/09/2020 05:37:26
No veo como ese metodo puede devolver null, si el string que retornas siempre tiene datos.

Se escribe el numero de paginas?

Puedes mostrar como estas usando este metodo?
Como descubres que hay null?
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar
sin imagen de perfil
Val: 63
Ha aumentado su posición en 2 puestos en Java (en relación al último mes)
Gráfica de Java

Extraer texto de un pdf con itext

Publicado por Camilo (20 intervenciones) el 29/09/2020 19:35:03
En la excepción me bota el null, sin embargo cambie a PDFBox y ya pude corregir el problema.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

Extraer texto de un pdf con itext

Publicado por Edwin (1 intervención) el 22/02/2021 15:28:05
El error esta en el ciclo for... el contador i tiene que iniciar en 1:

1
for(int i=1 ; i<=reader.getNumberOfPages(); i++) {

porque la numeración de las páginas de pdf inician en 1 y ademas el límite del contador sería <= (menor o igual)
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar