使用HttpClient和jsoup获取并解析html

本篇文章主要介绍2个工具包:HttpClient、jsoup。

来自官方的简介

HttpClient:HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。

官网:http://hc.apache.org/httpcomponents-client-dev/index.html

jsoup:jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

官网:http://jsoup.org/

more