Mostrar los tags: pdfbox

Mostrando del 1 al 2 de 2 coincidencias
<<>>
Se ha buscado por el tag: pdfbox
Imágen de perfil

Llibrería para la extracción de texto y tablas de Pdfs


Java

Publicado el 28 de Agosto del 2024 por Francisco Javier Rojas Garrido (26 códigos)
252 visualizaciones desde el 28 de Agosto del 2024
pdf-table-extractor-example.v1.0

La aplicación de línea de comandos es un ejemplo de uso de la librería Java.

La librería se basa en la librería de pdfbox, y funciona buscando el layout de cada página seleccionada del pdf, y buscando estructuras de tabla.

Tras la llamada a la librería (a la que hay que pasar el archivo de pdf, y el rango de páginas), el resultado es una List<PdfTextElement>.

PdfTextElement es una interfaz que tiene dos implementaciones.
* Un texto básico (fuera de las tablas)
* Y un PdfTextTabulaElement, para estructura de tablas.
Esta implementación permite leer las dimensiones de la tabla y el texto de cada celda de la tabla.

Es sólo una versión beta.
Si no te funciona con alguna tabla de tus PDFs, puedes escribir un comentario, y lo vemos
Imágen de perfil

Pdf Inspector


Java

Actualizado el 28 de Febrero del 2021 por Francisco Javier Rojas Garrido (26 códigos) (Publicado el 4 de Mayo del 2020)
2.418 visualizaciones desde el 4 de Mayo del 2020
La aplicación Pdf inspector, permite abrir libros en Pdf y navegar por ellos.
Una vez abierto, permite inspeccionar los códigos de los caracteres (puede ser útil en caso de que el PDF use codificación no estándar).
También permite localizar imágenes.


pdf.icon128x128