当前位置：首页 > 软件库 > 程序开发 > 常用工具包 >

ContentExtractor

网页正文抽取算法

授权协议 GPLv2

开发语言 Java

所属分类程序开发、常用工具包

软件类型开源软件

地区国产

投递者商昆琦

操作系统跨平台

开源组织无

适用人群未知

软件概览

简介

ContentExtractor 是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取精度。

项目地址转移

项目已和WebCollector合并，当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExtractor的最新版本源码和API。

教程(只适用于老版本，新版本请前往WebCollector)

ContentExtractor的接口非常简单，用户可以根据网页的url，或者网页的html，来进行网页正文抽取：

根据url，抽取网页的正文：

public static void main(String[] args) throws Exception {
        String content=ContentExtractor.getContentByURL("http://news.
            xinhuanet.com/world/2014-11/02/c_127166728.htm");
        System.out.println(content);
}

根据html，抽取网页的正文：

public static void main(String[] args) throws Exception {
        String html="获取到的html源码";
        String content=ContentExtractor.getContentByHtml(html);
        System.out.println(content);
}

导入项目(只适用于老版本，新版本请前往WebCollector)

从ContentExtractor的github主页https://github.com/hfut-dmic/ContentExtractor上下载ContentExtractor-{版本号}-bin.zip,将解压后得到的jar包全部放到工程的build path即可。

ContentExtractor由合肥工业大学dmic团队开发

Git@OSC：http://git.oschina.net/webcollector/ContentExtractor

使用案例

WebCollector 网页正文提取算法(ContentExtractor)

http://blog.csdn.net/AJAXHu/article/details/48382381#41-基于启发式规则和无监督学习的网页抽取算法 http://blog.csdn.net/ajaxhu/article/details/48493107 WebCollector 2.x入门教程——基本概念 : (http://blog.csdn.net/ajaxhu/article/
网页正文抽取算法 ContentExtractor

软件介绍简介 ContentExtractor 是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取精度。算法 ContentExtractor的网页正文抽取算法使用的是CEPR，适用于几乎所有的包含正文的网页。算法简介：项目地址转移项目已和WebCollector合并，当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExt
GitHub - hfut-dmic/ContentExtractor: 自动抽取网页正文的算法，用JAVA实现

ContentExtractor ##简介 ContentExtractor是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取精度。 ##算法 ContentExtractor的网页正文抽取算法使用的是CEPR，适用于几乎所有的包含正文的网页。算法简介：http://dl.acm.org/citation.cfm?id=2505558 #项目地址转移项目已和WebCollector

相关资料

js实现网页抽奖实例

本文向大家介绍js实现网页抽奖实例，包括了js实现网页抽奖实例的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了js实现网页抽奖的方法。分享给大家供大家参考。具体如下：这段网页抽奖程序，基于javascript代码实现，简单的演示如何使用JS来实现抽奖功能，点击“开始抽奖”按钮，程序即开始抽奖了，需要停止的时候按“停止”，以前发过类似的抽奖程序有几个了，有兴趣的自己在本站网页特效栏目搜索“
深度剖析使用python抓取网页正文的源码

本文向大家介绍深度剖析使用python抓取网页正文的源码，包括了深度剖析使用python抓取网页正文的源码的使用技巧和注意事项，需要的朋友参考一下本方法是基于文本密度的方法，最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》，本文基于此进行一些小修改。约定：本文基于网页的不同行来进行统计，因此，假设网页内容是没有经过压缩的，就是网页有正常的换行的。
Python-网页抓取

我是python新手，正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen stats。有人想知道为什么吗？下面是我的代码和我得到的错误下面是我得到的错误 df11=pd。读取html（urlwk1）回溯（上次调用）：文件“”，第1行，在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
Python-BeautifulSoup抓取可见网页文本

问题内容：基本上，我想使用来严格抓取网页上的可见文本。例如，此网页是我的测试用例。我主要想获取正文文本（文章），甚至在这里和那里甚至几个标签名称。我已经尝试过在这个SO问题中返回不想要的标签和html注释的建议。我无法弄清楚该函数所需的参数，以便仅获取网页上的可见文本。那么，我应该如何查找除脚本，注释，CSS等之外的所有可见文本？问题答案：尝试这个：
如何从网页中提取文本？

我有一个Excel工作表，其中一栏填充了专利号。我需要提取每个相应专利的标题，并将其放在专利号旁边的单元格中。因此，代码应执行以下操作：访问espacenet.com并打开需要名称的专利号。获取标题。将其放在所需单元格的Excel工作表中。这是一个完美适用于第一个专利号的代码，但在这之后会立即出现错误。错误显示：“运行时错误'-2147417848（80010108）'：自动化错误调用的
Python网页正文转换语音文件的操作方法

本文向大家介绍Python网页正文转换语音文件的操作方法，包括了Python网页正文转换语音文件的操作方法的使用技巧和注意事项，需要的朋友参考一下天气真的是越来越冷啦，有时候我们想翻看网页新闻，但是又冷的不想把手拿出来，移动鼠标翻看。这时候，是不是特别想电脑像讲故事一样，给我们念出来呢？人生苦短，我有python啊，试试用 Python 来朗读给你听吧。网页转换成语音，步骤无外乎：网页正文识

ContentExtractor

同类工具

相关阅读

相关文章

相关问答

相关文档