当前位置: 首页 > 软件库 > 程序开发 > 常用工具包 >

xurls

从纯文本提取 URL
授权协议 BSD
开发语言 Google Go
所属分类 程序开发、 常用工具包
软件类型 开源软件
地区 不详
投 递 者 沈华晖
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

xurls 可以从纯文本中使用正则表达式提取 URL。

go get github.com/mvdan/xurls

使用示例

import "github.com/mvdan/xurls"
func main() {
    xurls.Relaxed.FindString("Do gophers live in golang.org?")
    // "golang.org"
    xurls.Relaxed.FindAllString("foo.com is http://foo.com/.", -1)
    // []string{"foo.com", "http://foo.com/"}
    xurls.Strict.FindAllString("foo.com is http://foo.com/.", -1)
    // []string{"http://foo.com/"}
}
 相关资料
  • 当我打印响应文本(使用alert)时,它会打印包含所有HTML信息的消息。实际消息以粗体突出显示 响应消息 HTML>标题>标题>Apache Tomcat/5.0.28-错误报告/标题>样式>!--{font-family:Tahoma,Arial,Sans-serif;color:white;background-color:#525d76;font-size:22px;}H2{font-fa

  • 我有一个带有此endpoint的REST API: 响应的示例可以是:。 谢谢

  • 问题内容: 我将div设置为,并设置了“ ” 样式,以便保留换行符。在Safari,FF和IE中,div的外观和工作原理几乎相同。一切都很好。我想做的是从该div中提取文本,但要确保其格式不会丢失- 特别是换行符。 我们使用的是jQuery,它的功能基本上是执行预定的DFS,并将DOM分支中的所有内容粘合在一起。这会丢失格式。 我看过该函数,但似乎所有这三种浏览器都使用div 幕后生成的实际HTM

  • 问题内容: 我正在开发一个程序,该程序可以下载HTML页面,然后选择一些信息并将其写入另一个文件。 我想提取段落标签之间的信息,但是我只能获得段落的一行。我的代码如下: 我试图添加另一个while循环,这样可以告诉程序继续写入文件,直到该行包含该标记为止; 问题答案: so 我真正喜欢使用的另一个html解析器是jsoup。您可以 在2行代码中获得所有元素。 然后再将其写到文件中 或者,如果您希望

  • 问题内容: AJAX调用返回的响应文本包括JSON字符串。我需要: 提取JSON字符串 修改它 然后重新插入以更新原始字符串 我不太担心步骤2和3,但是我不知道如何执行步骤1。我当时在考虑使用正则表达式,但是我不知道该怎么做,因为我的JSON可能具有嵌套对象的多个级别或数组。 问题答案: 您不能使用正则表达式从任意文本中提取JSON。由于正则表达式通常不够强大,无法验证JSON(除非可以使用PCR

  • 我试图从这个API提取特定的信息,如、等,这样我就可以在我的网站上以文本的形式显示它们,但它都被格式化为一堵纯文本墙,而不是我可以从URL提取的json文件。 URL:https://staging_cursemeta.dries007.net/api/v3/direct/addon/268210 如何继续提取数据,以及如何从这类API访问特定字段。我使用的是JavaScript。

  • 我需要从大文件中提取文本(最大限制50MB)文件可能是doc、ppt、xls、txt或pdf格式。到目前为止,我使用了ApachePOI'http://poi.apache.org/' 用于Microsoft Office文档和PDFBox从PDF中提取文本。然而,随着文件变大,提取过程变得缓慢,特别是以下文件。到目前为止我取得的成果: 1. PPTX-45MB-3分钟apx 2.PDF-62MB

  • 问题内容: 我想知道是否可以仅使用Javascript将文本包含在PDF文件中?如果是,谁能告诉我如何? 我知道有一些服务器端的Java,C#等库,但我宁愿不使用服务器。谢谢 问题答案: 这是一个古老的问题,但是由于pdf.js多年来一直在发展,所以我想给出一个新的答案。也就是说,它可以在本地完成,而无需涉及任何服务器或外部服务。新的pdf.js具有一个函数:page.getTextContent