当前位置: 首页 > 软件库 > Web应用开发 > HTML解析器 >

html2article-golang

基于文本密度的 html2article 实现
授权协议 未知
开发语言 Google Go
所属分类 Web应用开发、 HTML解析器
软件类型 开源软件
地区 国产
投 递 者 徐高韵
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

html2article — 基于文本密度的html2article实现[golang]

Install

go get -u -v github.com/sundy-li/html2article

Performance

avg 3.2ms per article, accuracy >= 98% (对比其他开源实现,可能是目前最快的html2article实现,我们测试的数据集约3kw来自于微信公众号,各大类中文科技媒体历史文章,目前能达到98%以上准确率)

Examples

参考examples from_url.go

package main

import (
	"github.com/sundy-li/html2article"
)

func main() {
	article, err := html2article.FromUrl("https://www.leiphone.com/news/201602/DsiQtR6c1jCu7iwA.html")
	if err != nil {
		panic(err)
	}
	println("article title is =>", article.Title)
	println("article publishtime is =>", article.Publishtime)
	println("article content is =>", article.Content)
}

Algorithm

  • 原文:https://blog.csdn.net/xiaoquantouer/article/details/80233177 一、Json和struct互换 二、json和map互转 (1)json转map例子: func JsonToMapDemo(){ jsonStr := ` { "name": "jqw",

  • 基于文本密度的html2article实现[golang] Install go get -u -v github.com/sundy-li/html2article Performance Accuracy: >= 98% Qps: 2w/s , 0.06ms/op go test -bench=. BenchmarkExtract-4 20000 66341 ns/op 说明(对比其他开源实现

  • 1.环境:CentOS7 当前: Vim7.4 Python2.7.6 目标: Vim8.2 Python3.7.2 2.Python升级 2.1 下载并编译 mkdir /usr/local/Python3 && cd /usr/local/Python3 wget https://www.python.org/ftp/python/3.7.2/Python-3.7.2.tgz tar xvf

  • layout title category tags post 2020-08-15-test golang golang debug gdb 2019-03-07-gdb-debug-golang 在Mac进行使用gdb调试的遇到的几个坑进行记录总结 我的环境 系统环境 HOMEBREW_VERSION: 2.0.3 ORIGIN: https://github.com/Homebrew

  • 中文论坛 c.biancheng.net/golang/intro/ Go语言实战笔记(二十三)| Go 调试 https://www.flysnow.org/2017/06/07/go-in-action-go-debug.html 函数function https://www.cnblogs.com/skymyyang/p/7659775.html golang 函数以及函数和方法的区别

  • 基于文本密度的html2article实现[golang] Install go get -u -v github.com/sundy-li/html2article Performance Accuracy: >= 98% Qps: 2w/s , 0.06ms/op go test -bench=. BenchmarkExtract-4 20000 66341 ns/op 说明(对比其他开源实现

  • Golang-Web HTMl模板 调用自定义函数/方法 调用自定义函数/方法 Go template包下有两个函数可以创建模板示例 func New(name string) *Template func ParseFiles(filenames ...string) (*Template, error) 工程结构如下 --项目名 --src --static -

 相关资料
  • .NET平台下,一个高效的从Html中提取正文的工具。 正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。 Html2Article有如下特点: 标签无关,提取正文不依赖标签。 支持从压缩的html文档中提取正文内容。 支持带标签输出原始正文。 核心算法简洁高效,平均提取时间在30ms左右。 使用示例: /// <summ

  • 我有一个关于获取加密文本文件内容并根据给定频率列表交换相应字母的快速问题。 例如,文本文件中的前几行是: XWJGFVCCVUJYPXQZGCVXQHXKAZGPPUHBZJYPUFMCZVYXQWJFZJCCMVMGHWZBZXQZKKBKUBKAZGJY 我创建了一个单个字符的数组列表,然后在哈希集中找到每个字母在文件中出现的次数。 在代码片段中,您可以看到字符串解密,它是英语中最常用的字母列

  • 本文向大家介绍Golang+Android基于HttpURLConnection实现的文件上传功能示例,包括了Golang+Android基于HttpURLConnection实现的文件上传功能示例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Golang+Android基于HttpURLConnection实现的文件上传功能。分享给大家供大家参考,具体如下: 这里要演示的是使用Andr

  • 本文向大家介绍php实现基于openssl的加密解密方法,包括了php实现基于openssl的加密解密方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php实现基于openssl的加密解密方法。分享给大家供大家参考,具体如下: 通过openssl加密解密方法 1. openssl加密方法: 2. openssl解密方法: PS:关于加密解密感兴趣的朋友还可以参考本站在线工具: 密码安全

  • 问题内容: 有gin-gonic网络应用程序。 有3个文件: 1)base.html-基本布局文件 2)page1.html,用于/ page1 3)page2.html,用于/ page2 问题是/ page1和/ page2使用一个模板-page2.html。我想我误解这种结构的:,。 拜托,您能举例说明如何在golang中使用基本布局吗? 问题答案: 只要解析模板以及“内容”,就可以使用ba

  • Software developers don’t really like to make schedules. Usually, they try to get away without one. “It’ll be done when it’s done!” they say, expecting that such a brave, funny zinger will reduce thei