当前位置: 首页 > 知识库问答 >
问题:

从带有属性的JSoup标签中提取链接

裴学
2023-03-14

在HTML文档中,我有以下标记

<a id="myUniqueID" class="myClassName" href="/uniqueURLToExtract" data-original-title"">This is a Title</a>

我正在使用JSoup,希望提取href中包含的URL,该URL由myUniqueID标识。在阅读了下面的文章之后

>

JSoup解析标记中的数据

我想出了这段代码

...
document = Jsoup.connect(mySiteAddress).timeout(10*1000).get();
...
String URLStr = document.select(a[id=myUniqueID]").text();

但这些都是印刷品

This is a Title

我尝试过其他的变化,但都没有成功。我要么什么也没打印出来,要么最后出现了空指针异常。

我不确定如何提取


共有2个答案

赏弘
2023-03-14

您想要获取href属性,而不是a的文本:

String href = document.getElementById("myUniqueID").attr("href");
范飞翰
2023-03-14

尝试:

String URLStr = document.select("a[id=myUniqueID]").attr("href");

所以attr()overtext()

 类似资料:
  • 我想从图像(即img)标签中提取源(即src)属性,我使用bs4,我不能使用来获取,但是我可以获取。我该怎么办?

  • 问题内容: 我有一个Div标签,如下所示 我如何获得eventTTL的值?我想显示eventTTL的值,即:)“ 4583476000”。 问题答案: 有关更多信息,请访问:https : //jsoup.org/cookbook/extracting-data/attributes-text- html

  • 我正在抓取此网页以供个人使用https://asheville.craigslist.org/search/fua并在提取页面上每个项目的缩略图时遇到问题。当我使用“检查”查看html DOM时,我可以查看包含我需要的. jpg的图像标签,但当我使用“查看页面源”时,img标签不会显示。起初我认为这可能是一个异步javascript加载问题,但一个可靠的消息来源告诉我,我应该能够直接用漂亮的汤抓取

  • 我得到了一个数据Uri,并尝试解析属性。但是,如果属性包含'+'符号,方法会将其转换为文档中提到的'' 因此,如果参数包含'+'符号,这个答案将不起作用。 我的Uri看起来像这样:

  • 本文向大家介绍Jsoup 提取URL和链接标题,包括了Jsoup 提取URL和链接标题的使用技巧和注意事项,需要的朋友参考一下 示例 Jsoup可用于轻松地从网页中提取所有链接。在这种情况下,我们可以使用Jsoup提取我们想要的特定链接,这里h3是页面标题中的链接。我们还可以获取链接的文本。 这给出以下输出: 这里发生了什么事: 首先,我们从指定的URL获取HTML文档。此代码还将请求的用户代理标

  • 我有一个组件文件夹。它们用一个文件公开,如下所示: 我有一个名为Status的JSX组件,如下所示: 它的任务是加载命名组件的行。 然后我有一个名为的组件,看起来像这样: 从'react'导入React 通过