当前位置：首页 > 面试题库 >

如何使用Java在HTML中查找URL

吕扬

2023-03-14

问题内容：

我有以下内容…我不会说问题，而是情况。

我有一些带有标签和其他内容的HTML。我想搜索每个URL的HTML。我现在正在通过检查它说“ h”，“ t”，“ t”然后“
p”的位置来做到这一点，但是我认为这不是一个很好的解决方案

有什么好主意吗？

补充：我正在寻找某种伪代码，但是，以防万一，我正在为此项目使用Java

问题答案：

尝试使用HTML解析库，然后<a>在HTML文档中搜索标签。

Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href

并非所有的url都在标签中，有些是文本，有些在链接或其他标签中

您不应该扫描HTML源代码来实现此目的。

您将最终获得不一定位于页面“文本”中的链接元素，例如，您可能最终获得页面中JS脚本的“链接”。

最好的方法仍然是使用为该工作量身定制的工具。

你应该抓住HTML标签和覆盖最有可能的人有他们内部的“链接”（比如：<h1>，<p>，<div>等）。HTML解析器提供了
类似于正则表达式的功能，以过滤 标记的内容，类似于您的“以HTTP开头”的逻辑。

[attr^=value]，[attr$=value]， [attr*=value]:用与启动属性的元素，结束与，或包含所述的值，例如
select("[href*=/path/]")

请参阅：jSoup。

类似资料：

如何使用Java在HTML中查找URL

问题内容：我有以下内容…我不会说问题，而是情况。我有一些带有标签和其他内容的HTML。我想搜索每个URL的HTML。我现在正在通过检查它说“ h”，“ t”，“ t”然后“ p”的位置来做到这一点，但是我认为这不是一个很好的解决方案有什么好主意吗？补充：我正在寻找某种伪代码，但是，以防万一，我正在为此项目使用Java 问题答案：尝试使用HTML解析库，然后在HTML文档中搜索标签。并非
如何使用Java在JSON中搜索/查找

问题内容：我有一个下面的JSON字符串，我想在JSON字符串中查找/搜索条件。 1）。查找存在的键数。2）。获取给定键的值（如果有数组）我正在寻找类似Groovy GPath语法的解决方案 store.book-此数组的大小。 store.book [*]。category-如何对数组中存在的键进行计时。 store.bicycle-如果发现它必须返回真实值问题答案：您还可以使用REST
使用JSoup查找HTML中“div”中的“Span”

我已经成功地在一个分隔符中获取了如下所示的文本：
如何在Java 8中查找字数

我有下面的句子预期输出：（不考虑订单）使用以下代码进行了尝试：得到以下输出：我想得到作为键和
使用BeautifulSoup在confluence HTML中查找文本标记

我正试图用漂亮的汤刮一个汇合页的身体。当使用Confluence API时，我会得到以下正文（这只是其中的一部分）：我已经搜索了我的屁股，但不知何故，我似乎不明白如何搜索一个段落与特定的文本。另一件我认识但不明白的事情是：当我使用:搜索所有段落时，我会找到该段落，但它包含了所有子元素的所有文本，因此段落文本如下所示：“System Status：GreenIN Operation”
如何使用python在docx中查找列表？

我正在尝试拆分一个word文档，该文档如下所示： 1.0列表项 1.1列表项 1.2列表项 2.0列表项它存储在docx中，我正在使用python-docx尝试解析它。不幸的是，它在开始时失去了所有的编号。我试图识别每个有序列表项的开始。 python-docx库也允许我访问样式，但是我不知道如何确定样式是否是列表样式。到目前为止，我一直在处理函数和检查输出，但标准格式类似于：我一直在使用它

相关阅读

如何在Java项目中查找未使用/无效的代码如何使用Golang在SQL中执行IN查找？如何在Java中获取HTML 如何在Java中查找类文件的包 html中如何使用svg？

相关文章

并查集快速查找 JPA查找实体 Java在远程方法中使用反射机制哈希查找算法插值查找算法

相关问答

如何在java中使用2d数组迷宫查找路径如何用java在JSON中进行搜索/查找如何在Thymeleaf/HTML中使用Java+Spring复选框？如何使用文本在appium中查找元素？如何在AWS帐户中查找未使用的VPC

相关工具

html HTML Purifier HTML Tidy Requests-HTML HTML Preview

相关文档

如何使用 Gitbook 来做笔记 Java 函数速查好用的中文速查表 HTML 宝典 HTML Canvas Deep Dive