当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

Boilerpipe

HTML 正文内容提取库

授权协议 Apache 2.0

开发语言 Java

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区不详

投递者公冶鸣

操作系统跨平台

开源组织无

适用人群未知

软件概览

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的 Java 库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构：

boilerpipe，根目录

document，文档包，定义了 boilerpipe 所处理文档数据类型，主要包括 TextDocument 和 TextBlock 。一个 TextDocument 即一个网页，由多个 TextBlock 构成。

lables，标签，每个 TextBlock 都有一个 lable 字段，表示该 TextBlock 的属性（如是不是正文）。

filters，过滤器，定义了多个过滤器，过滤器的作用即对 TextBlock 进行过滤，使用机器学习、统计、启发式方法等数据挖掘算法判断哪些 TextBlock 是所需要的（正文段），给 TextBlock 加上 lable ，去除无关的 TextBlock 。

sax，SAX 解析器，定义了从各种来源获取并解析网页的方法。

extractors，提取器，提取流程的入口。每个 extractor 都定义了自己的提取方法，通过调用不同的 filter 达到不同的处理效果。

conditions，条件判断，判断一个 TextBlock 是否满足特定的条件。

estimators，评估器，评估一个 extractor 对特定 document 的提取效果。

调用关系图示：

介绍内容摘自：CSDN

使用案例

pip或者python安装jpype总是报错----Boilerpipe使用

使用pip或者python setup install 安装jpype总是报错，几乎搜遍全网，使用了各种解决方案，均无效，遂放弃，换思路使用Anaconda进行安装首先安装Anaconda，Anaconda官网的介绍为：设想一个数据科学家可以定期将人工智能和机器学习项目大规模部署到生产中的世界，快速向决策者提供见解。这对您的业务有何影响？ Anaconda Enterprise支持您的组织，
在Python下运行boilerpipe 时报错

运行boilerpipe 时报以下错误: Traceback (most recent call last): File "/Users/Adrian/anaconda3/lib/python3.6/site-packages/boilerpipe/extract/__init__.py", line 45, in __init__ self.data = unicode(self.d
boilerpipe(Boilerplate Removal and Fulltext Extraction from HTML pages) 源码分析

开源Java模块boilerpipe(1.1.0), http://code.google.com/p/boilerpipe/ 使用例子, URL url = new URL("http://www.example.com/some-location/index.html "); // NOTE: Use ArticleExtractor unless DefaultExtractor gives
基于boilerpipe抽取页面乱码问题解决方式

需求：基于boilerpipe抽取页面的文本内容，基于url的openStream来获取页面的时候会碰到乱码，解决方式是基于jsoup来获取body的byte流实现： jar依赖： <dependency> <groupId>com.syncthemall</groupId> <artifactId>boilerpipe</artifactId> <version>1.2.2</vers
安装boilerpipe时发生的错误

安装boilerpipe的地址为：python-boilerpipe 得到以下错误： $ python setup.py install Traceback (most recent call last): File "setup.py", line 26, in <module> download_jars(datapath=DATAPATH) File "setup.py",

Boilerpipe

同类工具

相关阅读

相关文章

相关问答

相关文档