Extraccion de Datos de Sitio Web
Muy buenas @Adolfo y a todos los compañeros estoy muy contento de aprender todos juntos y más en Java que es mi favorito. Bueno vamos a dejarnos las ma...........adas y vamos a la tela.
Para solucionar el problema que planteas bajo mi humilde opinión lo haría de dos formas que son las que conozco:
[1] Usando las librería que te ha indicado el compañero @Yamil ¿Qué es Jsoup? para resumirte es una librería para realizar scrapping a una web y extraer contenido del DOM. Por otro lado para solventar el problema del login lo que yo haría es utilizar la Tool del navegador con F12 , realizar un login a mano y capturar los parámetros del método post o get en su caso, para después reproducirlo con cualquier librería Http de java. En el mes de Septiembre hice un programa que realizaba scrapping a 80.000 Ref.- que estaban en el DOM de una página web con esta librería.
[2] En esta segunda opción y para mí es muy cómoda es instalar el plugin selenium en el navegador y también importar la librería a tu proyecto. Voy a intentar de resumirte lo que puedes hacer con selenium plugin. Con Selenium instalado lo que hace es realizar una grabación de todos los movimientos que haces durante el login a una Web por ejemplo y una vez has terminado te ofrece la posibilidad de pasarlo a código java , C# y tienes más alternativas. Para que me puedas comprender imagina que tuvieras que hacer unas pruebas a una web de login 1000 veces, pues utilizando Selenium en el browser harías una captura una vez, acto seguido lo transformaría a código java y crearía una pequeña aplicación que automatizaría los 1000 login.
Finally existen diversos videos en Inglés en los cuales podrás apreciar mejor lo que te explico sobre Selenium un saludo para todos.