HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。
HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。
本项目部分代码参考 Crux 项目,例如 HeuristicString 类。
示例代码:
public static void main(String[] args) throws IOException { String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released"; System.out.println(HtmlSucker.parse(url, 20000)); }
输出结果:
title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区 keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口 description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1,挂买单接口 2,挂卖单接口 3,撮合接口 4,撮合结果查询接口 详见:https://my.oschina.net/jeffreyning/blog/1612810... author: date:null image:https://www.oschina.net/img/logo_s2.png content: <p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">阿里云高性能云服务器,2折起! >>> >>></a> <img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p> <p>撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法</p> <p>1,挂买单接口</p> <p>2,挂卖单接口</p> <p>3,撮合接口</p> <p>4,撮合结果查询接口</p> <p>详见:<a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>
HtmlSucker 提供两种正文提取算法: 最大文本块:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。 文本密度算法:参考 WebCollector 项目的代码 目前还处于非常简单的阶段,但是可用。 导入依赖 <dependency> <groupId>net.oschina.htmlsucker</groupId> <artifactId>HtmlSuc
提取的文本:http://pastebin.com/BXFfMy0z 问题pdf:http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf 如何从该pdf文件中提取正确的文本?
大家好,我想使用scrapy中的xpath从html块中提取所有文本 假设我们有这样一个块: 我想将文本摘录为[“blahblah”,“blahblah”,“blihblih”]。我希望xpath在div节点中递归查找文本。我听说过try:,但它不提取嵌套元素。 干杯!SEB
目前,我正在使用itextsharp工具(在VB.net中)提取PDF的文本。我希望独立于其他工具/库,因为我无法在我的程序中将它们提供给其他人。 在任何编程语言中是否有一种解决方案(无dll等)可以快速提取PDF的文本?
问题内容: 我想从一般的HTML页面中提取所有文本(是否显示)。 我想 删除 任何HTML标记 任何JavaScript 任何CSS样式 是否有一个正则表达式(一个或多个)可以实现? 问题答案: 您不能真正用正则表达式解析HTML。太复杂了。RE根本无法正确处理部分。此外,某些常见的HTML之类的东西将在浏览器中作为适当的文本工作,但可能会使天真的RE感到困惑。 有了合适的HTML解析器,您会更快
我在使用SOAP向服务器提交用户数据时遇到了一些麻烦。我得到的只是: 获取http正文时出错,没有内容长度,连接关闭或分块数据,我做错了吗? 最后一个响应头:http/1.1 200 OK x-站点授权:jenppb601内容-位置:http://.***.*/general/html/pages/layouts/columncontent.jsp内容-语言:de-DE内容-类型:text/htm
本文向大家介绍SQL Server 提取数字、提取英文、提取中文的sql语句,包括了SQL Server 提取数字、提取英文、提取中文的sql语句的使用技巧和注意事项,需要的朋友参考一下
句子的输入列表: 所需输出: 是否有一种方法可以使用内置或第三方标记器使用提取引用(可以以单引号和双引号显示)? 我曾尝试使用tokenizer作为值提供单引号和双引号,但结果与预期相差甚远,例如: 有类似这样和这样的线程,但它们都建议使用基于正则表达式的方法,但是,我很好奇这是否只能用来解决-听起来像是自然语言处理中的常见任务。
我需要从如下节点中提取文本: 我需要建立: 仅返回div的所有内容。-不在子元素内的所有内容。两者都错了。迭代子节点会忽略文本节点。 文本节点-某些文本