一直都在
不断前进和探索

网页正文提取集合

网站或工具:

 

库类:

cx-extractor

地址:https://code.google.com/archive/p/cx-extractor/

简介:(JAVA)基于行块的分布来提取网页中的正文,提取的方法是首先使用Jsoup来获取网页的内容,之后将内容传给cx-extractor,交由其来解析。

点评:这个库有时候会有错误,会将不属于正文的内容提取出来,例如一些无关的底部内容,或者一些链接。但性能比较高,约几十毫秒。

 

Boilerpipe

地址:http://code.google.com/p/boilerpipe/

简介:(JAVA)基于网页dom树来解析,内部有多种解析器。

点评:结果比较准确,性能比稍慢,大约在100毫米左右。

 

NReadability

地址:https://github.com/marek-stoj/NReadability

简介:.NET开源项目

 

Html2Article

地址:

http://www.cnblogs.com/jasondan/p/3497757.html

https://github.com/stanzhai/Html2Article

python:https://github.com/zhuyf8899/Html2Article

 

 

python goose

地址:https://github.com/grangier/python-goose

 

Readability

地址:https://github.com/luin/readability

点评:能过滤出部分正文,但是正文包含很多标签。效果不很好。

 

newspaper

地址:https://github.com/codelucas/newspaper

点评:耗时会比较长,第一次执行耗时4s左右,解析效果也一般

 

arex

地址:https://github.com/ahkimkoo/arex

赞(0)
未经允许不得转载:吟风博客 » 网页正文提取集合
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

一个纯粹用来记录的博客

Url在线批量打开