当前位置: 首页 > 知识库问答 >
问题:

从div标记中包含的span标记(无id或类)中刮取一个数字

穆宾白
2023-03-14

我是编程新手,我正试图建立一个网站。

该网站是一个在线赌场(https://www.888casino.it/live-casino/#filters=all-轮盘赌),我只需要刮取其中一个显示的数字(特定位置中包含的数字大约每30秒改变一次,但我稍后会考虑这个问题)。

<div class="sc-qbELi jLgZIw">
  <span>2</span>
</div>

我要刮取的数字包含在span标记中,我无法找到它,因为它们没有id或类。因此,我考虑定位包含span标记的div标记,然后使用函数(如)删除span标记中包含的编号。内容或。下一个元素或。儿童

为了定位div标记(它不是html代码中的第一个div标记,并且位于许多其他div标记中):

>

从bs4导入BeautifulSoup

导入请求

导入urllib.request

url='https://www.888casino.it/live-casino/#filters=all-roulette'

requests.get(url)

response.texthtml.parser

我尝试了以下三种解决方案:

.

div_tag = soup.findAll('div', class_='sc-qbELi jLgZIw')

div_tag = soup.find("div", class_="sc-qbELi jLgZIw")

div_tag = soup.select("div.jLgZIw.sc-qbELi")

如果你能帮我弄明白怎么做我会很高兴的。谢谢你的关注

共有1个答案

关飞翼
2023-03-14

我不得不使用硒。网站很可能是动态加载的

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--headless")


driver = webdriver.Chrome('chromedriver.exe', options=chrome_options)
url = 'https://www.888casino.it/live-casino/#filters=all-roulette'
driver.get(url)
time.sleep(5)
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")

使用

len(soup.find_all(class_="sc-qbELi jLgZIw")) 

长度为50。您必须找出如何获得正确的答案,但这会产生让您开始的输出

 类似资料:
  • 我正在尝试刮网页,在那里我需要解码整个表到一个数据帧。我正为此使用漂亮的汤。在某些标记中,有一些标记没有任何文本。但这些值会显示在网页上的特定span标记中。 下面的代码对应于该网页, 但是,这个标记中显示的值是。我试着删掉它,但我收到的是空短信。 如何刮这个价值使用美丽的汤。 URL:https://en.tutiempo.net/climate/ws-432950.html 下面给出了我的用于

  • 我很高兴过去几天一直在学习python。今天我要讲一个叫做网络抓取的话题。我试图刮除div中的所有p标签,除了前3个p标签。因为p标记没有类或id,所以我找不到方法取消它们 我的代码: 我的输出: 虚拟文本 不需要的文本 没有文本 Lorem ipsum dolor sit amet 临时工程量清单 献祭精英 我们的劳动和医疗保险公司 我需要的是: Lorem ipsum dolor sit am

  • 我有以下html片段: 我已经用以下XPath找到了该元素: 谢谢,里亚斯

  • 我需要从下面的链接刮表。 我使用selenium编写了一个脚本,可以单击下一个页面,但每个页面中的表似乎没有标记。相反,它似乎只包含标记。我发现很难在这个网站上找到桌子。任何帮助都是非常贴切的。 编辑%1 提前道谢。

  • 我有一个任务,需要在web应用程序内部的几个页面上添加一些标记。文本已经存在,但包装在其他标签中,我需要将其转换为h1标签。当我这样做的时候,我需要在页面上保持相同的设计,所以设计明智,什么都不应该改变。我们需要谷歌机器人的h1标签。 让我在下面给你展示一个例子。目前我有一页是这样的: null null 我需要在那里插入。我在internet上读到,在中添加不是一个好主意,因为我的第一个想法是用

  • 你好,我试图使用JSoup提取嵌套DIV标签中的span标签。下面的代码只是较大代码的一个片段。 我试图提取最后一个SPAN标签中的文本(多伦多C08,莫斯公园,多伦多和120-21-S) 我已经成功地解析了文档的其他部分,但是,我似乎无法隔离这些跨度。代码片段来自一个更大的页面(整页)。我可能使用了错误的方法,但下面是我为捕获父DIV之间的跨度所做的工作(结果在帖子顶部)。 所以现在我有了第一个