Java - Extraccion de Datos de Sitio Web

   
Vista:

Extraccion de Datos de Sitio Web

Publicado por Adolfo (5 intervenciones) el 15/01/2018 20:18:35
Hola que tal muy buenas tardes, estoy al comienzo de un nuevo proyecto, pero se presento el problema de que no se como extraer datos desde un sitio web con la finalidad de generar un reporte de viaticos de una persona, y quisiera saber si alguien de ustedes podria darme alguna idea de como realizarlo, por favor, se los agradeceria mucho
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder

Extraccion de Datos de Sitio Web

Publicado por Yamil Bracho (2146 intervenciones) el 15/01/2018 20:23:24
Ese proceso se llama WebScraping y existen varias librerias en Java para hacerlo. Puedes usar jsoup(https://jsoup.org/)
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

Extraccion de Datos de Sitio Web

Publicado por Adolfo (5 intervenciones) el 15/01/2018 20:35:09
pero debes de darle un parametro de busqueda, no?. Y en caso de que sea una pagina con inicio de sesion, se debe de acceder a ella para poder obtener los datos que se necesitan?
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar
Imágen de perfil de Pedro

Extraccion de Datos de Sitio Web

Publicado por Pedro (50 intervenciones) el 16/01/2018 20:49:46
Muy buenas @Adolfo y a todos los compañeros estoy muy contento de aprender todos juntos y más en Java que es mi favorito. Bueno vamos a dejarnos las ma...........adas y vamos a la tela.

Para solucionar el problema que planteas bajo mi humilde opinión lo haría de dos formas que son las que conozco:

[1] Usando las librería que te ha indicado el compañero @Yamil ¿Qué es Jsoup? para resumirte es una librería para realizar scrapping a una web y extraer contenido del DOM. Por otro lado para solventar el problema del login lo que yo haría es utilizar la Tool del navegador con F12 , realizar un login a mano y capturar los parámetros del método post o get en su caso, para después reproducirlo con cualquier librería Http de java. En el mes de Septiembre hice un programa que realizaba scrapping a 80.000 Ref.- que estaban en el DOM de una página web con esta librería.

[2] En esta segunda opción y para mí es muy cómoda es instalar el plugin selenium en el navegador y también importar la librería a tu proyecto. Voy a intentar de resumirte lo que puedes hacer con selenium plugin. Con Selenium instalado lo que hace es realizar una grabación de todos los movimientos que haces durante el login a una Web por ejemplo y una vez has terminado te ofrece la posibilidad de pasarlo a código java , C# y tienes más alternativas. Para que me puedas comprender imagina que tuvieras que hacer unas pruebas a una web de login 1000 veces, pues utilizando Selenium en el browser harías una captura una vez, acto seguido lo transformaría a código java y crearía una pequeña aplicación que automatizaría los 1000 login.

Finally existen diversos videos en Inglés en los cuales podrás apreciar mejor lo que te explico sobre Selenium un saludo para todos.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar