当前位置: 首页 > 知识库问答 >
问题:

用Java和jsoup解析特定的HTML代码

常嘉平
2023-03-14

代码(存储在Element对象中,由jsoup提供):

22:48
<strong> <a href="www.randomUrl.com">url1</a>:</strong> Random message.22:44 
<strong> <a href="www.randomUrl.com">url2</a>:</strong> Even more random message!22.42
<strong> <a href="www.randomUrl.com">url3</a>:</strong> This is a dumb message9922.20
<strong> <a href="www.randomUrl.com">url4</a>:</strong> This is a dumb message3
22:48 <strong> <a href="www.randomUrl.com">url1</a>:</strong> Random message.
22:44 <strong> <a href="www.randomUrl.com">url2</a>:</strong> Even more random message!
22.42 <strong> <a href="www.randomUrl.com">url3</a>:</strong> This is a dumb message99
22.20 <strong> <a href="www.randomUrl.com">url4</a>:</strong> This is a dumb message3

我想知道正确的方法是否是同时使用time和strong-element来解析它,因为strong-element似乎总是开始一个新行。

谢谢你!

共有1个答案

程谦
2023-03-14

JSoup是一个伟大而有价值的图书馆。但是,如果没有用显式的开始和结束标记进行明确的分隔,则对部分文本进行细微的更改是不容易实现的。

由于所有烦人的时间戳似乎总是跟在标记后面,所以您可以在所有匹配“时间(最终跟在空格后面)”的序列上删除时间。

这可以通过一个非常简单的字符串来完成。ReplaceAll regex:

html = html.replaceAll("(\\d{2}[:\\.]\\d{2})(\\s*<strong>)","$2");

 类似资料:
  • 我试图在标签之间获得文本并保存到一些变量中,例如:在这里我想保存值,这是标签之间。我还需要其余的文本,这是在标签,标签值分配与和标签值应该只返回- 我写了下面的内容:下面返回的只是“'em”标记中的“return”。这里的基本上是,选择标记,然后进行迭代,不确定我的方法是否正确,任何其他方法都受到高度赞赏。

  • 我想解析出这个Nasa页面上的描述,页面底部的文字 我该怎么做?

  • 问题内容: 我无法使用Jsoup库从此处获取div 。 这是我的代码: 问题答案: 此标记中的文本不是初始html的一部分,而是在页面加载后由JavaScript设置的。您可以通过在浏览器中禁用JavaScript进行检查。Jsoup仅获取静态html,不执行JavaScript代码。 当您检查从页面建立的连接时,您会发现该值是通过对此API的请求进行更新的: https://shapeshift

  • 问题内容: 可供选择(并坚持使用)的大量HTML解析器令人难以置信: http://java-source.net/open-source/html-parsers 如何选择最适合以下要求的产品: 成熟(错误比其他错误少) 生活和呼吸(即得到维持) 快速且资源高效(打算在Android上运行) 根据您的经验,您会推荐哪种HTML解析器(以满足上述要求),为什么? 问题答案: 好吧,我找到了答案,它

  • 主要内容:Jsoup 使用DOM解析HTML 语法,Jsoup 使用DOM解析HTML 说明,Jsoup 使用DOM解析HTML 示例以下示例将展示在将 HTML 字符串解析为 Document 对象后如何使用类似 DOM 的方法。 Jsoup 使用DOM解析HTML 语法 document : 文档对象代表 HTML DOM。 Jsoup : 解析给定 HTML 字符串的主类。 html : HTML 字符串。 sampleDiv : 元素对象表示由 id“sampleDiv”标识的 html

  • 我需要的是在第二个中获取第二个 的文本,并对表中的每一组 标记执行此操作。