`
hwy1782
  • 浏览: 150268 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

jsoup使用

 
阅读更多

jsoup是一个开源的html解析工具:

 

jsoup的对象模型由多个elements 和tetxNode组成。

 

其继承结构如下:

                       Node

                            |

           -----------------------

           |                             |

     Element               TextNode

           |

   Document

 

其中一个Element包含一个子节点集合,并拥有一个父element

 

分以下几个部分描述一下这个工具的用法:

1.获取远程HTML document

2.解析document

 

1.获取HTML document

 

基本方法:

 

//获取参数URL对应的HTML文档,第二个参数为超时时间。
public static Document parse(URL url, int timeoutMillis)

 

Jsoup还提供了一个方法链来解决特殊请求,具体如下:

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

 

 

通过上述方法获取到HTML Document.,然后我们就可以通过Document中适当的方法或者它父类Elment和Node的方法来获取HTML文档中的相关数据

 

2.解析获取到的document

 

将HTML解析成Docuemnt之后,就可以使用类似DOM的方法来操作。

 

先给一个简单的例子:

//获取百度新歌100中的数据
private static void analyesBaidu() {
		
		String urlStr = "http://music.baidu.com/";
		
		try {
			URL urlBase = new URL(urlStr);
			Document doc = Jsoup.parse(urlBase, 10000);
			String topMsic = doc.select("div[monkey=new-top]").text();
			System.out.println(topMsic);
		} catch (Exception e) {
			e.printStackTrace();
		}
		
	}

返回的结果如下:

写道
更多>> 新歌TOP100 1 到不了 李代沫 2 经过 刘若英 3 等你爱我 金池 4 平安夜 平安 5 How You .. Avril La.. 6 伤痕 金池 7 遗憾 李代沫 8 愤怒的老鸟 多亮 9 Dancing Q.. 少女时代 10 Super Girl .. 萧亚轩 播放榜单

 

解释一下上述代码。

通过Jsoup拿到HTML对应的Document对象,使用jsoup的select方法。获取对应的内容。

其中

//查找docuemtn中div标签下有monkey=“new-top”属性的元素
String topMsic = doc.select("div[monkey=new-top]").text();

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    itextpdf测试样例和jar jsoup使用说明

    itextpdf测试样例和jar jsoup使用说明

    Jsoup解析与使用

    jsoup获取网站资源,按照自己的思路写自己的APP。

    jsoup操作手册 API

    jsoup操作手册 API

    使用jsoup需要的jar.zip

    jsoup使用时记得导入jar,否则会报错.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。主要功能 1....

    jsoup api 文档和教程文档

    jsoup是java编写的html解析器,用于向web服务器发送请求返回的html页面,此文件包括jsoup的api文档和三份jsoup的教程文档。

    Jsoup JsonDemo

    里面的JsoupDemo是关于Jsoup使用的一个简单例子,sinaweather是关于Json数据解析的一个简单例子

    jsoup-1.15.3.jar

    jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jarjsoup-...

    jsoup-1.11.1

    jsoup-1.11.1版本爬虫,详细见微博,或者搜索jsoup使用说明书

    jsoup开发例子学习使用

    如何使用jsoup

    使用Jsoup解析html网页

    使用Jsoup解析html网页,包含jsoup.jar \ api.chm \ 代码

    jsoup-1.14.3-API文档-中文版.zip

    赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...

    Jsoup

    Jsoup

    在Android使用Jsoup爬取网上数据

    使用了一个简单的例子来测试在安卓中利用Jsoup,非常简单,解决很多小白的问题。 1.在lib中倒入jsoup-1.10.2.jar,在Android Studio中切换到Project目录下,将jsoup-1.10.2.jar放入lib,然后右键点击Add As Library...

    使用jsoup获取网页内容并修改

    通过使用jsoup库,获取网页的内容,解析修改网页,并且能够显示出修改的结果。

    Jsoup 1.5.2 和jsoup 1.6

    Jsoup 1.5.2 和jsoup 1.6 开发包jar包,开发文档,源码包

    JsoupAPI(jsoup帮助文档)

    JsoupAPI jsoup最新版帮助文档(1.10.2)

    使用Jsoup对Html文件解析

    使用jsoup对Html解析并生成excel

    JsoupXpath

    整理JsoupXpath( https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java...

    jsoup-1.11.3-API文档-中文版.zip

    赠送jar包:jsoup-1.11.3.jar; 赠送原API文档:jsoup-1.11.3-javadoc.jar; 赠送源代码:jsoup-1.11.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.11.3.pom; 包含翻译后的API文档:jsoup-1.11.3-javadoc-API...

    Jsoup库文件;Jsoup解析Java包

    Jsoup库文件;Jsoup解析Java包

Global site tag (gtag.js) - Google Analytics