基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
对于Web信息检索来说,网页正文抽取是后续处理的关键。
虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。
作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多,在法。
建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好处是更新及时,zip包作者不能保证每次修改完后都及时上传 :)
There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)
Version | Author | Institute | |
Perl | 陈鑫 | xchen@ir.hit.edu.cn | 哈工大信息检索研究中心 |
Java | 王利锋、罗磊 | {lfwang,lluo}@ir.hit.edu.cn | 哈工大信息检索研究中心 |
C++ | 朱亮 | zhuliang@software.ict.ac.cn | 中科院计算所高级网络重点实验室 |
PHP | 轩文烽 | xwf1788@gmail.com | 哈工大智能技术与自然语言处理研究室 |
C# | 张帆 | zfannn@gmail.com | 中科院信息科学与工程学院 |
如果您正在关注或使用cx-extractor,同时希望在第一时间得到该项目的更新信息,
您可以加入该项目的邮件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3
本软件的使用许可协议:署名-非商业性使用-相同方式共享 (by-nc-sa),新浪微博http://weibo.com/cx3180
cx-extractor 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 http://code.google.com/p/cx-extractor/ 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规
今天看了cx师兄写过的一个网页正文抽取算法。线性时间、不建DOM树、与HTML标签无关,十分佩服。 简述其主要思想如下: 1.将网页HTML文本去除其所有标签及脚本,得到粗糙正文块 2. 求行块字数的分布函数。 3.求该函数的骤升和骤降点,中间即为正文。 其中,行块是指,以第i行为轴,取其周围k行,为第i个行块。很简单是不是。 行块字数,是说第i个行块内的文本总字数。也很简单对不对。
我试图创建一个apache2网页,允许用户上传nifti(. nii,.nii.gz)文件。 我尝试了两种不同的方法: > 在WSL Ubuntu 18.04上,“move_uploaded_文件($_文件[“fileToUpload”][“tmp_名称”],$target_文件)”不返回任何内容。它完全失败了。 在XAMPP上,页面可以获取PDF、JPG..等文件,但不能获取.nii、.exe(
本文向大家介绍js实现网页抽奖实例,包括了js实现网页抽奖实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了js实现网页抽奖的方法。分享给大家供大家参考。具体如下: 这段网页抽奖程序,基于javascript代码实现,简单的演示如何使用JS来实现抽奖功能,点击“开始抽奖”按钮,程序即开始抽奖了,需要停止的时候按“停止”,以前发过类似的抽奖程序有几个了,有兴趣的自己在本站网页特效栏目搜索“
目前最简单易用的EXIF信息处理的Java包是Drew Noakes写的metadata-extractor,该项目最新的版本是2.3.0,支持EXIF 2.2版本。你可以直接从http://www.drewnoakes.com/code/exif/ 下载该项目的最新版本包括其源码。 代码示例:http://www.drewnoakes.com/code/exif/sampleUsage.html
meta-extractor Super simple and fast meta data extractor with low memory footprint. Extracts: title description charset theme-color rss/atom feeds all opengraph meta data all twitter meta data all app
本文向大家介绍深度剖析使用python抓取网页正文的源码,包括了深度剖析使用python抓取网页正文的源码的使用技巧和注意事项,需要的朋友参考一下 本方法是基于文本密度的方法,最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》,本文基于此进行一些小修改。 约定: 本文基于网页的不同行来进行统计,因此,假设网页内容是没有经过压缩的,就是网页有正常的换行的。
Extractor Localizable Strings 是开源的 Xcode 插件,让你提取可定位的字符串,不需要打开任何 .strings 文件。当你选择一个字符串时,你可以简单的提取主要的 Localizable.strings 文件,不需要打开。