当前位置: 首页 > 知识库问答 >
问题:

使用span title和span class刮取数据

后安民
2023-03-14

我正在使用Python Anaconda将数据刮到Excel表单中。我遇到了两个网站的麻烦。

站点1

<div id="ember3815" class="ember-view">
<p class="org-top-card-module__company-descriptions Sans-15px-black-55%">
<span class="company-industries org-top-card-module__dot-separated-list">
  Industry
</span>
<span class="org-top-card-module__location org-top-card-module__dot-separated-list">
  City, State
</span>
<span title="62,346 followers" class="org-top-card-module__followers-count org-top-card-module__dot-separated-list">
  62,346 followers
</span>

null

null

null

我在试着拉跨度标题。我尝试过的东西(我也以find_all的形式尝试过它们):

text = soup.find('span',{'class':"company-industries org-top-card-module__dot-separated-list"})

text = soup.find('p',{'class':"org-top-card-module__company-descriptions Sans-15px-black-55%"})

text = soup.body.find('span', attrs={'class': 'org-top-card-module__location org-top-card-module__dot-separated-list'})

text = soup.find('span',{'class': 'org-top-card-module__location org-top-card-module__dot-separated-list'})

我肯定也有我尝试过的其他事情没有列出,因为我不是全部都记得。我不是程序员,我只是想弄清楚这一点来拉数据进行分析。救命?

站点2

我需要从下面的html中提取值8,052。

<section class="zwlfE">
<div class="nZSzR">...</div>
<ul class="k9GMp ">
<li class="Y8-fY ">...</li>
<li class-"Y8-fY ">
<a class="g47SY " title="8,052">8,052</span>" followers"
</a>
</li>
<li class="Y8-fY ">...</li>
</ul>
<div class="-vDIg">...</div>
</section>

我试过:

  • text=soup.find('span',{'class':“g47sy”})
  • 与上面类似,但带有div和li标记

我所尝试的一切结果都是[]。

请帮帮忙?

共有1个答案

贝礼骞
2023-03-14

获取跨距标题

from bs4 import BeautifulSoup
html ="""<div id="ember3815" class="ember-view">
<p class="org-top-card-module__company-descriptions Sans-15px-black-55%">
<span class="company-industries org-top-card-module__dot-separated-list">
  Industry
</span>
<span class="org-top-card-module__location org-top-card-module__dot-separated-list">
  City, State
</span>
<span title="62,346 followers" class="org-top-card-module__followers-count org-top-card-module__dot-separated-list">
  62,346 followers
</span>"""

soup = BeautifulSoup(html, "html.parser")
print( soup.find("span", class_="org-top-card-module__followers-count org-top-card-module__dot-separated-list")["title"])

输出:

62,346 followers

而对于站点2

print( soup.find("a", class_="g47SY")["title"])
 类似资料:
  • 我试图使用Selenium从代码中获得jpg。我已经设法找到了链接点击获得我的jpg所在的位置。(真倒霉!我刚接触硒)。所有的窗户都随着它的点击而打开。与刮刮乐相比,它真的很慢,所以如果有人能告诉我一个更快的方法,那就太好了。 我试图搜索的网站是www.rosegal.com。我正在刮的类别是大尺寸的背心。这第一页有60个产品在它。如果单击这些产品,它会将您带到一个产品页面,在该页面上您可以选择所

  • 我正在尝试刮网页,在那里我需要解码整个表到一个数据帧。我正为此使用漂亮的汤。在某些标记中,有一些标记没有任何文本。但这些值会显示在网页上的特定span标记中。 下面的代码对应于该网页, 但是,这个标记中显示的值是。我试着删掉它,但我收到的是空短信。 如何刮这个价值使用美丽的汤。 URL:https://en.tutiempo.net/climate/ws-432950.html 下面给出了我的用于

  • 我想用英超网站上的统计数据来做一个班级项目。这是网站:https://www.premierleague.com/stats/top/players/goals

  • 我正试图从whoscored.com(下面的变量根链接)中删除到EPL所有球员的链接,这里是代码: 如果你进入这个页面,你会看到一个玩家列表和一个下一个按钮来显示下一个10个玩家(其中有284个在29页)我想要的输出:保存链接到每个10个玩家的配置文件,然后移动到下一个页面与下一个10个玩家直到完成

  • 我正在从一个站点上刮取数据,每个项目都有一个相关的文档URL。我想从那个文件中刮数据,这是可用的HTML格式后点击链接。现在,我一直在使用Google Sheets导入feed来填充基本列。 有没有下一步,我可以做的,进入每个相应的URL并从文档中抓取元素,并用它们填充Google表单?我之所以使用RSS提要(而不是python和BS)是因为它们实际上提供了一个RSS提要。 我找过了,没有找到一个