我有以下内容…我不会说问题,而是情况。
我有一些带有标签和其他内容的HTML。我想搜索每个URL的HTML。我现在正在通过检查它说“ h”,“ t”,“ t”然后“
p”的位置来做到这一点,但是我认为这不是一个很好的解决方案
有什么好主意吗?
补充:我正在寻找某种伪代码,但是,以防万一,我正在为此项目使用Java
尝试使用HTML解析库,然后<a>
在HTML文档中搜索标签。
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href
并非所有的url都在标签中,有些是文本,有些在链接或其他标签中
您不应该扫描HTML源代码来实现此目的。
您将最终获得不一定位于页面“文本”中的链接元素,例如,您可能最终获得页面中JS脚本的“链接”。
最好的方法仍然是使用为该工作量身定制的工具。
你应该抓住HTML标签和覆盖最有可能的人有他们内部的“链接”(比如:<h1>
,<p>
,<div>
等)。HTML解析器提供了
类似于正则表达式的功能,以过滤 标记的内容,类似于您的“以HTTP开头”的逻辑。
[attr^=value]
,[attr$=value]
,[attr*=value]:
用与启动属性的元素,结束与,或包含所述的值,例如
select("[href*=/path/]")
请参阅:jSoup。
问题内容: 我有以下内容…我不会说问题,而是情况。 我有一些带有标签和其他内容的HTML。我想搜索每个URL的HTML。我现在正在通过检查它说“ h”,“ t”,“ t”然后“ p”的位置来做到这一点,但是我认为这不是一个很好的解决方案 有什么好主意吗? 补充:我正在寻找某种伪代码,但是,以防万一,我正在为此项目使用Java 问题答案: 尝试使用HTML解析库,然后在HTML文档中搜索标签。 并非
问题内容: 我有一个下面的JSON字符串,我想在JSON字符串中查找/搜索条件。 1)。查找存在的键数。2)。获取给定键的值(如果有数组) 我正在寻找类似Groovy GPath语法的解决方案 store.book-此数组的大小。 store.book [*]。category-如何对数组中存在的键进行计时。 store.bicycle-如果发现它必须返回真实值 问题答案: 您还可以使用REST
我已经成功地在一个分隔符中获取了如下所示的文本:
我有下面的句子 预期输出:(不考虑订单) 使用以下代码进行了尝试: 得到以下输出: 我想得到作为键和
我正试图用漂亮的汤刮一个汇合页的身体。当使用Confluence API时,我会得到以下正文(这只是其中的一部分): 我已经搜索了我的屁股,但不知何故,我似乎不明白如何搜索一个段落与特定的文本。 另一件我认识但不明白的事情是:当我使用:搜索所有段落时,我会找到该段落,但它包含了所有子元素的所有文本,因此段落文本如下所示:“System Status:GreenIN Operation”
我正在尝试拆分一个word文档,该文档如下所示: 1.0列表项 1.1列表项 1.2列表项 2.0列表项 它存储在docx中,我正在使用python-docx尝试解析它。不幸的是,它在开始时失去了所有的编号。我试图识别每个有序列表项的开始。 python-docx库也允许我访问样式,但是我不知道如何确定样式是否是列表样式。 到目前为止,我一直在处理函数和检查输出,但标准格式类似于: 我一直在使用它