当前位置: 首页 > 知识库问答 >
问题:

python从href源提取id值

易烨磊
2023-03-14

我已经设法提取href URI的使用美丽的汤从页面的来源,但是我现在想从下面的例子的多个实例中提取UID值:

e. g.

<a href="test.html?uid=5444974">
<a href="test.html?uid=5444972">
<a href="test.html?uid=54444972">

帮助将不胜感激!

共有2个答案

昌博易
2023-03-14

使用urlparseparse\u qs

html = """<a href="test.html?uid=5444974">
<a href="test.html?uid=5444972">
<a href="test.html?uid=54444972">
"""

from bs4 import BeautifulSoup as BS
from urlparse import urlparse, parse_qs
soup = BS(html)
for a in soup('a', href=True):
    print parse_qs(urlparse(a['href']).query)['uid'][0]

输出:

5444974
5444972
54444972
公西光华
2023-03-14
>>> html
'<a href="test.html?uid=5444974">\n<a href="test.html?uid=5444972">\n<a href="test.html?uid=54444972">'
>>> soup = BeautifulSoup(html)
>>> ass = soup.find_all('a')
>>> r = re.compile('uid=(\d+)')
>>> uids = []
>>> for a in ass:
...     uids.append(r.search(a['href']).group(1))
... 
>>> uids
['5444974', '5444972', '54444972']
>>> 
 类似资料:
  • 问题内容: 我正在尝试从Google搜索结果中提取链接。检查元素告诉我,我感兴趣的部分具有“ class = r”。第一个结果如下所示: 要提取“ href”,我要做: 但是我意外地得到: 我想要的地方: 属性“ ping”似乎使它感到困惑。有任何想法吗? 问题答案: 发生了什么? 如果您打印响应内容(即),则会看到您得到的HTML完全不同。页面源和响应内容不匹配。 因为内容是动态加载的,所以 不

  • 问题内容: 我开始将Scrapy用于一个小型项目,但无法提取链接。每次找到该类时,我只会得到“ []”而不是URL。我是否缺少明显的东西? 来自网站的示例: 问题答案: 你的xpath查询错误 在这一行中,你实际上是在对没有任何Href属性的div进行迭代 为了使其正确,你应该在中选择元素: 最好的解决方案是直接href在for循环中提取属性 为了简单起见,你还可以使用CSS选择器

  • 我想要一个JavaScript正则表达式从facebook配置文件URL中提取一个id的值。例如,我有一个网址 我只想提取之后的值,这是数字部分。 但在某些情况下,我需要一篇文章中的用户配置文件url。例如,一个用户发布了一些内容,如果我得到了该帖子的profile url链接,那么我得到的链接如下: 如您所见,在的值之后,指定了一个附加参数。 我只需要获取值,不管链接中还有什么。

  • 我想从这个json数据中提取id值。我尝试了很多方法,但我不知道我的代码出了什么问题,我也不想把id存储到数组中

  • 问题内容: 我需要将资源ID传递给我的一个类中的方法。它既需要使用引用指向的id,也需要使用字符串。我应该如何最好地做到这一点? 例如: 我需要获取它的整数ID,但是我还需要访问字符串“ icon”。 如果我只需要传递给该方法的是“ icon”字符串,那将是更好的选择。 问题答案: 我不知道那个存在。 在我的项目中,我使用以下代码来做到这一点: 这样将用于获取资源整数值的值 我刚刚找到了一篇博客文

  • 本文向大家介绍Android中获取资源 id 及资源 id 的动态获取,包括了Android中获取资源 id 及资源 id 的动态获取的使用技巧和注意事项,需要的朋友参考一下  Android中获取资源 id 及资源 id 的动态获取 我们平时获取资源是通过 findViewById 方法进行的,比如我们常在onCreate方法中使用这样的语句: findViewById是我们获取layout中各