Visual CSharp .NET - Ayuda en ORC

Ayuda en ORC

Publicado por ayuda en orc (4 intervenciones) el 08/06/2014 06:14:41

Buenas noches

Alguna referencia para efectuar un ORC? principalmente para extraer informacion de PDF'S que contienen tablas....he leido acerca de emgu,tesseract,pero no logro obtener la informacion del pdf, agradeceria una ayuda :-(

Gracias

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

Ayuda en ORC

Publicado por Pico (29 intervenciones) el 08/06/2014 09:22:01

El problema del tesseract, como de otros muchos, es la resolución. Si no es grande tiene problemas para sacar el texto, y un pdf no suele tenerla grande (la resolución).

Valora esta respuesta

Me gusta: Está respuesta es útil y esta clara

No me gusta: Está respuesta no esta clara o no es útil

Comentar

Ayuda en ORC

Publicado por flak25 (4 intervenciones) el 08/06/2014 19:58:04

Tu haz trabajado con Tesseract? Que me puedas ayudar con algun ejemplo?

Valora esta respuesta

Comentar

Ayuda en ORC

Publicado por Pico (29 intervenciones) el 08/06/2014 20:15:45

Si es un exe.

Process p = new Process();

p.StartInfo.FileName = "tesseract.exe ";

En los argumentos le pasas lo que quieras.

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

Valora esta respuesta

Comentar

Ayuda en ORC

Publicado por flak25 (4 intervenciones) el 08/06/2014 20:35:51

Revisaré.....disculpa el atrevimiento, la mejor forma de extraer la informacion de un PDF,principalmente informacion contenida en tablas' para ti cual seria?...es q tambien vi con el dll para abrir pdf pero ese no m extrae lo contenido en la tabla del pdf =(

Valora esta respuesta

Comentar

Ayuda en ORC

Publicado por Pico (29 intervenciones) el 08/06/2014 21:09:44

Si es un texto en un pdf, no imagen escaneada, lo mejor es usar itextsharp. Eso abre un pdf y extrae lo que haya. Si hay texto como tal saca ese texto. Lo que sea imagen, aunque haya texto, como la resolución es muy baja los ocrs no suelen sacar nada.

Valora esta respuesta

Comentar

Ayuda en ORC

Publicado por flak25 (4 intervenciones) el 08/06/2014 21:13:53

Vieras q ese dll si lo he estado probando :D pero la mayoria de los pdf son provenientes de imagenes escaneadas por eso estoy pegada en como extraer la informacion =( mas que su informacion viene con tablas.....intente abrir ese pdf con itextsharp pero no m devuelve nada

Valora esta respuesta

Comentar

Ayuda en ORC

Publicado por Pico (29 intervenciones) el 08/06/2014 21:20:46

De un pdf así es muy complicado sacar texto. Suele estar muy mal escaneado, muy sucio y con muy mala resolución. Da buen resultado aumentar el contraste, poniendo los bits de imagen claros blancos y los oscuros negros, con lo que se limpia un poco la imagen. Quizá haya que recurrir a uno de pago y caro para que salga algo bien.

Valora esta respuesta

Comentar

Agregar un número en columna tabla reportviewer

desabilitar dias