当前位置: 首页 > 软件库 > Web应用开发 > HTML解析器 >

HtmlSucker

HTML 正文提取工具
授权协议 WTFPL
开发语言 Java
所属分类 Web应用开发、 HTML解析器
软件类型 开源软件
地区 国产
投 递 者 秦永望
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。

HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。

本项目部分代码参考 Crux 项目,例如 HeuristicString 类。

示例代码:

public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.parse(url, 20000));
}

输出结果:

title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区
keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口
description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1,挂买单接口 2,挂卖单接口 3,撮合接口 4,撮合结果查询接口 详见:https://my.oschina.net/jeffreyning/blog/1612810...
author:
date:null
image:https://www.oschina.net/img/logo_s2.png
content:
<p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">阿里云高性能云服务器,2折起! &gt;&gt;&gt; &gt;&gt;&gt;</a>&nbsp;&nbsp;<img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p>
<p>撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法</p>
<p>1,挂买单接口</p>
<p>2,挂卖单接口</p>
<p>3,撮合接口</p>
<p>4,撮合结果查询接口</p>
<p>详见:<a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>
 相关资料
  • 提取的文本:http://pastebin.com/BXFfMy0z 问题pdf:http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf 如何从该pdf文件中提取正确的文本?

  • 大家好,我想使用scrapy中的xpath从html块中提取所有文本 假设我们有这样一个块: 我想将文本摘录为[“blahblah”,“blahblah”,“blihblih”]。我希望xpath在div节点中递归查找文本。我听说过try:,但它不提取嵌套元素。 干杯!SEB

  • 目前,我正在使用itextsharp工具(在VB.net中)提取PDF的文本。我希望独立于其他工具/库,因为我无法在我的程序中将它们提供给其他人。 在任何编程语言中是否有一种解决方案(无dll等)可以快速提取PDF的文本?

  • 问题内容: 我想从一般的HTML页面中提取所有文本(是否显示)。 我想 删除 任何HTML标记 任何JavaScript 任何CSS样式 是否有一个正则表达式(一个或多个)可以实现? 问题答案: 您不能真正用正则表达式解析HTML。太复杂了。RE根本无法正确处理部分。此外,某些常见的HTML之类的东西将在浏览器中作为适当的文本工作,但可能会使天真的RE感到困惑。 有了合适的HTML解析器,您会更快

  • 我在使用SOAP向服务器提交用户数据时遇到了一些麻烦。我得到的只是: 获取http正文时出错,没有内容长度,连接关闭或分块数据,我做错了吗? 最后一个响应头:http/1.1 200 OK x-站点授权:jenppb601内容-位置:http://.***.*/general/html/pages/layouts/columncontent.jsp内容-语言:de-DE内容-类型:text/htm

  • 本文向大家介绍SQL Server 提取数字、提取英文、提取中文的sql语句,包括了SQL Server 提取数字、提取英文、提取中文的sql语句的使用技巧和注意事项,需要的朋友参考一下

  • 句子的输入列表: 所需输出: 是否有一种方法可以使用内置或第三方标记器使用提取引用(可以以单引号和双引号显示)? 我曾尝试使用tokenizer作为值提供单引号和双引号,但结果与预期相差甚远,例如: 有类似这样和这样的线程,但它们都建议使用基于正则表达式的方法,但是,我很好奇这是否只能用来解决-听起来像是自然语言处理中的常见任务。

  • 我需要从如下节点中提取文本: 我需要建立: 仅返回div的所有内容。-不在子元素内的所有内容。两者都错了。迭代子节点会忽略文本节点。 文本节点-某些文本