当前位置：首页 > 软件库 > Web应用开发 > HTML解析器 >

cx-extractor

通用网页正文抽取

授权协议未知

开发语言 Java C/C++ PHP Perl

所属分类 Web应用开发、 HTML解析器

软件类型开源软件

地区国产

投递者丘学海

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

对于Web信息检索来说，网页正文抽取是后续处理的关键。

虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》，首次将网页正文抽取问题转化为求页面的行块分布函数，这种方法不用建立Dom树，不被病态HTML所累（事实上与HTML标签完全无关）。通过在线性时间内建立的行块分布函数图，直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多，在法。

建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/，svn的好处是更新及时，zip包作者不能保证每次修改完后都及时上传 :)

There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)

Version	Author	Email	Institute
Perl	陈鑫	xchen@ir.hit.edu.cn	哈工大信息检索研究中心
Java	王利锋、罗磊	{lfwang,lluo}@ir.hit.edu.cn	哈工大信息检索研究中心
C++	朱亮	zhuliang@software.ict.ac.cn	中科院计算所高级网络重点实验室
PHP	轩文烽	xwf1788@gmail.com	哈工大智能技术与自然语言处理研究室
C#	张帆	zfannn@gmail.com	中科院信息科学与工程学院

如果您正在关注或使用cx-extractor，同时希望在第一时间得到该项目的更新信息，
您可以加入该项目的邮件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3

本软件的使用许可协议:署名-非商业性使用-相同方式共享 (by-nc-sa)，新浪微博http://weibo.com/cx3180

使用案例

cx-extractor 基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关...

cx-extractor 基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关 http://code.google.com/p/cx-extractor/ 对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规
cx-extractor：基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关

今天看了cx师兄写过的一个网页正文抽取算法。线性时间、不建DOM树、与HTML标签无关，十分佩服。简述其主要思想如下： 1.将网页HTML文本去除其所有标签及脚本，得到粗糙正文块 2. 求行块字数的分布函数。 3.求该函数的骤升和骤降点，中间即为正文。其中,行块是指，以第i行为轴，取其周围k行，为第i个行块。很简单是不是。行块字数，是说第i个行块内的文本总字数。也很简单对不对。

cx-extractor

同类工具

相关阅读

相关文章

相关问答

相关文档