当前位置: 首页 > 知识库问答 >
问题:

使用Beauty Soup[duplicate]提取href元素内的特定psuedo标记

冀俊良
2023-03-14

我有一个锚标签如下:

<a class="gsc_a_at" href= "/citations?view_op=view_citation&amp;hl=en&amp;user=11JgipcAAAAJ&amp;pagesize=100&amp;citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C">'''

我想提取后的内容citation_for_view使用美丽的汤。没有正则表达式我怎么做。

下面是我试过的。

输入数据=“”“

#!/usr/bin/python
from bs4 import BeautifulSoup

soup = BeautifulSoup(input_data)

for href_tags in soup.find_all('a',href=True):
    print href_tags['href']

这将产生:

/citations?view_op=view_citation&hl=en&user=11JgipcAAAAJ&pagesize=100&citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C

如何提取citation_for_view中的内容,并仅输出11JgipcAAAAJ: j3f4tGmQtD8C

共有1个答案

田琛
2023-03-14

您可以使用urlparse

>>> import urlparse

>>> url = '/citations?view_op=view_citation&hl=en&user=11JgipcAAAAJ&pagesize=100&citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C'
>>> vals = urlparse.parse_qs(url)
>>> print vals.get('citation_for_view')
['11JgipcAAAAJ:j3f4tGmQtD8C']
 类似资料:
  • 我有一个JSON如下 有没有什么方法可以直接将“ID”的值提取到变量中,而不需要遍历根元素,即“Root1”。因为每次运行应用程序时根元素名称都会发生变化,比如“Root2”、“Root3”。 下面是我尝试使用“Root1”和“Result”元素提取ID的代码

  • 首先,我知道这个标题不是最好的,也不是网站推荐/要求的,但我不知道该怎么写。 我正在使用JQuery编辑我网站上的twitter小部件。我没有问题这样做,直到这一个元素。 我已经检查了我正在搜索正确的元素并且我正在尝试编辑的是 我的代码片段: 第一行编辑元素,它工作得很好,但是JQuery找不到。 对不起,这是我第一次在网站上工作,也是第一次使用JS和JQuery

  • 问题内容: 我正在尝试从下面的html中检索网页中的数据 我的目标是解析“#/ word / 1 /” 但输出是 我尝试了很多方法,似乎无法在目标类中获取“ a href”的内容。 我真的不想做的是获取页面的源代码,然后进行字符串搜索,这似乎很愚蠢。 反正得到那个? 问题答案: 据我所知,您可以通过搜索子元素来获取href

  • 问题内容: 我正在尝试从下面的html中检索网页中的数据 我的目标是解析“#/ word / 1 /” 但输出是 我尝试了很多方法,似乎无法在目标类中获取“ a href”的内容。 我真的不想做的是获取页面的源代码,然后进行字符串搜索,这似乎很愚蠢。 反正得到那个? 问题答案: 据我所知,您可以通过搜索子元素来获取href

  • 我无法使用python检索以下xml中的性别字段。我试过以下方法: 我希望得到元素。但我得到“没有” XML页面 有人能帮我理解我做错了什么吗?