简介
ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。
项目地址转移
项目已和WebCollector合并,当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExtractor的最新版本源码和API。
教程(只适用于老版本,新版本请前往WebCollector)
ContentExtractor的接口非常简单,用户可以根据网页的url,或者网页的html,来进行网页正文抽取:
根据url,抽取网页的正文:
public static void main(String[] args) throws Exception { String content=ContentExtractor.getContentByURL("http://news. xinhuanet.com/world/2014-11/02/c_127166728.htm"); System.out.println(content); }
根据html,抽取网页的正文:
public static void main(String[] args) throws Exception { String html="获取到的html源码"; String content=ContentExtractor.getContentByHtml(html); System.out.println(content); }
导入项目(只适用于老版本,新版本请前往WebCollector)
从ContentExtractor的github主页https://github.com/hfut-dmic/ContentExtractor上下载ContentExtractor-{版本号}-bin.zip,将解压后得到的jar包全部放到工程的build path即可。
ContentExtractor由合肥工业大学dmic团队开发
Git@OSC:http://git.oschina.net/webcollector/ContentExtractor
http://blog.csdn.net/AJAXHu/article/details/48382381#41-基于启发式规则和无监督学习的网页抽取算法 http://blog.csdn.net/ajaxhu/article/details/48493107 WebCollector 2.x入门教程——基本概念 : (http://blog.csdn.net/ajaxhu/article/
软件介绍 简介 ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。 算法 ContentExtractor的网页正文抽取算法使用的是CEPR,适用于几乎所有的包含正文的网页。 算法简介: 项目地址转移 项目已和WebCollector合并,当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExt
ContentExtractor ##简介 ContentExtractor是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。 ##算法 ContentExtractor的网页正文抽取算法使用的是CEPR,适用于几乎所有的包含正文的网页。 算法简介:http://dl.acm.org/citation.cfm?id=2505558 #项目地址转移 项目已和WebCollector
本文向大家介绍js实现网页抽奖实例,包括了js实现网页抽奖实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了js实现网页抽奖的方法。分享给大家供大家参考。具体如下: 这段网页抽奖程序,基于javascript代码实现,简单的演示如何使用JS来实现抽奖功能,点击“开始抽奖”按钮,程序即开始抽奖了,需要停止的时候按“停止”,以前发过类似的抽奖程序有几个了,有兴趣的自己在本站网页特效栏目搜索“
本文向大家介绍深度剖析使用python抓取网页正文的源码,包括了深度剖析使用python抓取网页正文的源码的使用技巧和注意事项,需要的朋友参考一下 本方法是基于文本密度的方法,最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》,本文基于此进行一些小修改。 约定: 本文基于网页的不同行来进行统计,因此,假设网页内容是没有经过压缩的,就是网页有正常的换行的。
我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
问题内容: 基本上,我想使用来严格抓取网页上的可见文本。例如,此网页是我的测试用例。我主要想获取正文文本(文章),甚至在这里和那里甚至几个标签名称。我已经尝试过在这个SO问题中返回不想要的标签和html注释的建议。我无法弄清楚该函数所需的参数,以便仅获取网页上的可见文本。 那么,我应该如何查找除脚本,注释,CSS等之外的所有可见文本? 问题答案: 尝试这个:
我有一个Excel工作表,其中一栏填充了专利号。我需要提取每个相应专利的标题,并将其放在专利号旁边的单元格中。因此,代码应执行以下操作: 访问espacenet.com并打开需要名称的专利号。 获取标题。 将其放在所需单元格的Excel工作表中。 这是一个完美适用于第一个专利号的代码,但在这之后会立即出现错误。错误显示:“运行时错误'-2147417848(80010108)': 自动化错误调用的
本文向大家介绍Python网页正文转换语音文件的操作方法,包括了Python网页正文转换语音文件的操作方法的使用技巧和注意事项,需要的朋友参考一下 天气真的是越来越冷啦,有时候我们想翻看网页新闻,但是又冷的不想把手拿出来,移动鼠标翻看。这时候,是不是特别想电脑像讲故事一样,给我们念出来呢?人生苦短,我有python啊,试试用 Python 来朗读给你听吧。 网页转换成语音,步骤无外乎: 网页正文识