当前位置：首页 > 软件库 > Web应用开发 > HTML解析器 >

HtmlSucker

HTML 正文提取工具

授权协议 WTFPL

开发语言 Java

所属分类 Web应用开发、 HTML解析器

软件类型开源软件

地区国产

投递者秦永望

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包，例如从网页中提取文章标题、作者、发布时间、封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。

HtmlSucker 提取文章正文的原理：分析整个 HTML 文档的所有节点，提取其中包含最多文字的的连续节点。

本项目部分代码参考 Crux 项目，例如 HeuristicString 类。

示例代码：

public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.parse(url, 20000));
}

输出结果：

title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区
keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口
description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1，挂买单接口 2，挂卖单接口 3，撮合接口 4，撮合结果查询接口 详见：https://my.oschina.net/jeffreyning/blog/1612810...
author:
date:null
image:https://www.oschina.net/img/logo_s2.png
content:
<p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">阿里云高性能云服务器，2折起！ &gt;&gt;&gt; &gt;&gt;&gt;</a>&nbsp;&nbsp;<img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p>
<p>撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法</p>
<p>1，挂买单接口</p>
<p>2，挂卖单接口</p>
<p>3，撮合接口</p>
<p>4，撮合结果查询接口</p>
<p>详见：<a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>

使用案例

HtmlSucker 从一个网页url中提取文章信息的小工具包，例如从网页中提取文章标题、作者、发布时间、封面图...

HtmlSucker 提供两种正文提取算法：最大文本块：分析整个 HTML 文档的所有节点，提取其中包含最多文字的的连续节点。文本密度算法：参考 WebCollector 项目的代码目前还处于非常简单的阶段，但是可用。导入依赖 <dependency> <groupId>net.oschina.htmlsucker</groupId> <artifactId>HtmlSuc

相关资料

PdfBox文本提取无法正常工作

提取的文本：http://pastebin.com/BXFfMy0z 问题pdf：http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf 如何从该pdf文件中提取正确的文本？
正在提取文本xpath scrapy

大家好，我想使用scrapy中的xpath从html块中提取所有文本假设我们有这样一个块：我想将文本摘录为[“blahblah”,“blahblah”,“blihblih”]。我希望xpath在div节点中递归查找文本。我听说过try:，但它不提取嵌套元素。干杯！SEB
无需工具即可提取PDF文本

目前，我正在使用itextsharp工具（在VB.net中）提取PDF的文本。我希望独立于其他工具/库，因为我无法在我的程序中将它们提供给其他人。在任何编程语言中是否有一种解决方案（无dll等）可以快速提取PDF的文本？
正则表达式从HTML提取文本

问题内容：我想从一般的HTML页面中提取所有文本（是否显示）。我想删除任何HTML标记任何JavaScript 任何CSS样式是否有一个正则表达式（一个或多个）可以实现？问题答案：您不能真正用正则表达式解析HTML。太复杂了。RE根本无法正确处理部分。此外，某些常见的HTML之类的东西将在浏览器中作为适当的文本工作，但可能会使天真的RE感到困惑。有了合适的HTML解析器，您会更快
使用php SoapClient“提取http正文时出错”

我在使用SOAP向服务器提交用户数据时遇到了一些麻烦。我得到的只是: 获取http正文时出错，没有内容长度，连接关闭或分块数据，我做错了吗？最后一个响应头：http/1.1 200 OK x-站点授权：jenppb601内容-位置：http://.***.*/general/html/pages/layouts/columncontent.jsp内容-语言：de-DE内容-类型：text/htm
SQL Server 提取数字、提取英文、提取中文的sql语句

本文向大家介绍SQL Server 提取数字、提取英文、提取中文的sql语句，包括了SQL Server 提取数字、提取英文、提取中文的sql语句的使用技巧和注意事项，需要的朋友参考一下
使用nltk（非正则表达式）提取引文/引文

句子的输入列表：所需输出：是否有一种方法可以使用内置或第三方标记器使用提取引用（可以以单引号和双引号显示）？我曾尝试使用tokenizer作为值提供单引号和双引号，但结果与预期相差甚远，例如：有类似这样和这样的线程，但它们都建议使用基于正则表达式的方法，但是，我很好奇这是否只能用来解决-听起来像是自然语言处理中的常见任务。
Jsoup-提取文本

我需要从如下节点中提取文本：我需要建立：仅返回div的所有内容。-不在子元素内的所有内容。两者都错了。迭代子节点会忽略文本节点。文本节点-某些文本

HtmlSucker

同类工具

相关阅读

相关文章

相关问答

相关文档