当前位置: 首页 > 知识库问答 >
问题:

使用beautifulsoup从span标记中刮取数据

郭辉
2023-03-14

我正在尝试刮网页,在那里我需要解码整个表到一个数据帧。我正为此使用漂亮的汤。在某些td标记中,有一些span标记没有任何文本。但这些值会显示在网页上的特定span标记中。

下面的HTML代码对应于该网页,

<td>
  <span class="nttu">::after</span>
  <span class="ntbb">::after</span>
  <span class="ntyc">::after</span>
  <span class="nttu">::after</span>
</td>

但是,这个td标记中显示的值是23.8。我试着删掉它,但我收到的是空短信。

如何刮这个价值使用美丽的汤。

URL:https://en.tutiempo.net/climate/ws-432950.html

下面给出了我的用于报废表的代码,

http_url = "https://en.tutiempo.net/climate/01-2013/ws-432950.html"
retreived_data = requests.get(http_url).text

soup = BeautifulSoup(retreived_data, "lxml")
climate_table = soup.find("table", attrs={"class": "medias mensuales numspan"})
climate_data = climate_table.find_all("tr")
for data in climate_data[1:-2]:
  table_data = data.find_all("td")
  row_data = []
  for row in table_data:
    row_data.append(row.get_text())
  climate_df.loc[len(climate_df)] = row_data

暂时还没有答案

 类似资料:
  • 我试图刮一个页面与美丽的汤,有

  • 我正在使用Python Anaconda将数据刮到Excel表单中。我遇到了两个网站的麻烦。 站点1 null null null 我在试着拉跨度标题。我尝试过的东西(我也以find_all的形式尝试过它们): 我肯定也有我尝试过的其他事情没有列出,因为我不是全部都记得。我不是程序员,我只是想弄清楚这一点来拉数据进行分析。救命? 站点2 我需要从下面的html中提取值8,052。 我试过: tex

  • 我是编程新手,我正试图建立一个网站。 该网站是一个在线赌场(https://www.888casino.it/live-casino/#filters=all-轮盘赌),我只需要刮取其中一个显示的数字(特定位置中包含的数字大约每30秒改变一次,但我稍后会考虑这个问题)。 我要刮取的数字包含在span标记中,我无法找到它,因为它们没有id或类。因此,我考虑定位包含span标记的div标记,然后使用函

  • 如果我想从锚标记中的href属性和字符串“水平零黎明”中刮出链接。 因为锚标记没有自己的类,并且在整个源代码中有更多的锚标记。 使用beautifulSoup可以做些什么来获取所需的数据?

  • BeautifulSoup尝试(替换最后3行) 这不会输出任何东西--在这个页面上,找到一些标签(divs、spans等)可以工作,但另一些则不行。在本例中,它没有按照预期找到带有game_info的表。

  • 问题内容: 我的链接看起来像这样 我想从那里去。我试过了 它输出。 我试过了,但它给了我KeyError。我该如何解决?我的错误是什么? 问题答案: 您可以使用css选择器,使用标题文本拉出所需的跨度: 找到具有包含 RAM 的 title 属性的 跨度 ,等效于在python中说。 或在 re.compile中 使用 find __ 要获取所有数据: 这会给你: