在HTML文档中,我有以下标记
<a id="myUniqueID" class="myClassName" href="/uniqueURLToExtract" data-original-title"">This is a Title</a>
我正在使用JSoup,希望提取href
中包含的URL,该URL由myUniqueID
标识。在阅读了下面的文章之后
>
JSoup解析标记中的数据
我想出了这段代码
...
document = Jsoup.connect(mySiteAddress).timeout(10*1000).get();
...
String URLStr = document.select(a[id=myUniqueID]").text();
但这些都是印刷品
This is a Title
我尝试过其他的变化,但都没有成功。我要么什么也没打印出来,要么最后出现了空指针异常。
我不确定如何提取
您想要获取href
属性,而不是a
的文本:
String href = document.getElementById("myUniqueID").attr("href");
尝试:
String URLStr = document.select("a[id=myUniqueID]").attr("href");
所以attr()
overtext()
。
我想从图像(即img)标签中提取源(即src)属性,我使用bs4,我不能使用来获取,但是我可以获取。我该怎么办?
问题内容: 我有一个Div标签,如下所示 我如何获得eventTTL的值?我想显示eventTTL的值,即:)“ 4583476000”。 问题答案: 有关更多信息,请访问:https : //jsoup.org/cookbook/extracting-data/attributes-text- html
我正在抓取此网页以供个人使用https://asheville.craigslist.org/search/fua并在提取页面上每个项目的缩略图时遇到问题。当我使用“检查”查看html DOM时,我可以查看包含我需要的. jpg的图像标签,但当我使用“查看页面源”时,img标签不会显示。起初我认为这可能是一个异步javascript加载问题,但一个可靠的消息来源告诉我,我应该能够直接用漂亮的汤抓取
我得到了一个数据Uri,并尝试解析属性。但是,如果属性包含'+'符号,方法会将其转换为文档中提到的'' 因此,如果参数包含'+'符号,这个答案将不起作用。 我的Uri看起来像这样:
本文向大家介绍Jsoup 提取URL和链接标题,包括了Jsoup 提取URL和链接标题的使用技巧和注意事项,需要的朋友参考一下 示例 Jsoup可用于轻松地从网页中提取所有链接。在这种情况下,我们可以使用Jsoup提取我们想要的特定链接,这里h3是页面标题中的链接。我们还可以获取链接的文本。 这给出以下输出: 这里发生了什么事: 首先,我们从指定的URL获取HTML文档。此代码还将请求的用户代理标
我有一个组件文件夹。它们用一个文件公开,如下所示: 我有一个名为Status的JSX组件,如下所示: 它的任务是加载命名组件的行。 然后我有一个名为的组件,看起来像这样: 从'react'导入React 通过