Visual CSharp .NET - Convertir PDF to XLS o HTML

   
Vista:

Convertir PDF to XLS o HTML

Publicado por guillermo lozano (2 intervenciones) el 12/08/2014 22:58:11
Buenas tardes,
tengo el siguiente problema.

tengo el siguiente pdf subido en la web,
http://www.occ.gov/news-issuances/alerts/2010/alert-2010-12a.pdf

... necesito descargarlo y abrir su informacion , y llegar hasta la informacion que estan en las tablas, eso quiere decir en la 3era pagina de este documento pdf.

he investigado por la web, y he encontrado codigo en .net , java python , etc.. pero no encontre la forma de convertirlo a excel para poder llegar a las tablas,

y lo que quiero hacer es pasarlo a html, para que de esa forma, mediante etiquetas html, pueda llegar a la informacion de las tablas que se encuentran en la pagina 3 de este documento pdf.

alguien sabe o conoce de que forma puedo convertir la informacion del pdf, en html .de PDF a xls


gracias por la respuesta.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder

Convertir PDF to XLS o HTML

Publicado por Pico (28 intervenciones) el 13/08/2014 09:31:35
Esas tablas son texto normal y corriente, así que puedes sacarlas con el GetTextFromPage del PdfTextExtractor del iTextSharp, por ejemplo.

http://www.ajpdsoft.com/modules.php?name=News&file=article&sid=601
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

Convertir PDF to XLS o HTML

Publicado por Guillermo Lozano (2 intervenciones) el 14/08/2014 07:32:38
estimado Pico,
el programa que me has enviado es muy interesante, sin embargo , cuando levanto mi archivo pdf, este mismo lo convierte en puro texto plano, lo que quiero yo , es llegar hasta la informacion de la tabla, por eso requeriero que se convierta a excel, pero en internet no he encontrado ningun ejemplo, solo aplicaciones o libreria que no son gratis.

te comento que lo he logrado encontrar , es un programa escrito en python para windows en donde mediante consola puedo convertir el pdf en html

http://www.foolabs.com/xpdf/download.html

su tutorial esta en este link
http://www.adultpdf.com/products/pdftohtml/help_cmd.html

sin embargo este html que se crea desde un pdf, por un momento pense que la informacion de las tablas del documento pdf, lo iba a convertir a una etiqueta html "table", pero no , solo puro div, con imagenes de fondo.

si tienes otra idea, estaria agradecido.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

Convertir PDF to XLS o HTML

Publicado por Pico (28 intervenciones) el 14/08/2014 10:53:57
Sí, muy estimado el Pico. El problema es que en un pdf no hay guardada una tabla, aunque tú la veas así. No hay más que puro texto con unas rayas pintadas. Así que para sacar eso que quieres tendrás que hacértelo a puro huevo, como se lo han hecho esos que dices que lo hacen (por eso lo cobran, claro). Lo que te he puesto yo te da la posibilidad de leer una parte de la página, con lo que puedes ir sacando columna por columna. Si quieres un copiar y pegar, sigue buscando.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar