我是编程新手,我正试图建立一个网站。
该网站是一个在线赌场(https://www.888casino.it/live-casino/#filters=all-轮盘赌),我只需要刮取其中一个显示的数字(特定位置中包含的数字大约每30秒改变一次,但我稍后会考虑这个问题)。
<div class="sc-qbELi jLgZIw">
<span>2</span>
</div>
我要刮取的数字包含在span标记中,我无法找到它,因为它们没有id或类。因此,我考虑定位包含span标记的div标记,然后使用函数(如)删除span标记中包含的编号。内容或。下一个元素或。儿童
为了定位div标记(它不是html代码中的第一个div标记,并且位于许多其他div标记中):
>
从bs4导入BeautifulSoup
导入请求
导入urllib.request
url='https://www.888casino.it/live-casino/#filters=all-roulette'
requests.get(url)
response.texthtml.parser
我尝试了以下三种解决方案:
.
div_tag = soup.findAll('div', class_='sc-qbELi jLgZIw')
div_tag = soup.find("div", class_="sc-qbELi jLgZIw")
div_tag = soup.select("div.jLgZIw.sc-qbELi")
如果你能帮我弄明白怎么做我会很高兴的。谢谢你的关注
我不得不使用硒。网站很可能是动态加载的
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--headless")
driver = webdriver.Chrome('chromedriver.exe', options=chrome_options)
url = 'https://www.888casino.it/live-casino/#filters=all-roulette'
driver.get(url)
time.sleep(5)
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")
使用
len(soup.find_all(class_="sc-qbELi jLgZIw"))
长度为50。您必须找出如何获得正确的答案,但这会产生让您开始的输出
我正在尝试刮网页,在那里我需要解码整个表到一个数据帧。我正为此使用漂亮的汤。在某些标记中,有一些标记没有任何文本。但这些值会显示在网页上的特定span标记中。 下面的代码对应于该网页, 但是,这个标记中显示的值是。我试着删掉它,但我收到的是空短信。 如何刮这个价值使用美丽的汤。 URL:https://en.tutiempo.net/climate/ws-432950.html 下面给出了我的用于
我很高兴过去几天一直在学习python。今天我要讲一个叫做网络抓取的话题。我试图刮除div中的所有p标签,除了前3个p标签。因为p标记没有类或id,所以我找不到方法取消它们 我的代码: 我的输出: 虚拟文本 不需要的文本 没有文本 Lorem ipsum dolor sit amet 临时工程量清单 献祭精英 我们的劳动和医疗保险公司 我需要的是: Lorem ipsum dolor sit am
我有以下html片段: 我已经用以下XPath找到了该元素: 谢谢,里亚斯
我需要从下面的链接刮表。 我使用selenium编写了一个脚本,可以单击下一个页面,但每个页面中的表似乎没有标记。相反,它似乎只包含标记。我发现很难在这个网站上找到桌子。任何帮助都是非常贴切的。 编辑%1 提前道谢。
我有一个任务,需要在web应用程序内部的几个页面上添加一些标记。文本已经存在,但包装在其他标签中,我需要将其转换为h1标签。当我这样做的时候,我需要在页面上保持相同的设计,所以设计明智,什么都不应该改变。我们需要谷歌机器人的h1标签。 让我在下面给你展示一个例子。目前我有一页是这样的: null null 我需要在那里插入。我在internet上读到,在中添加不是一个好主意,因为我的第一个想法是用
你好,我试图使用JSoup提取嵌套DIV标签中的span标签。下面的代码只是较大代码的一个片段。 我试图提取最后一个SPAN标签中的文本(多伦多C08,莫斯公园,多伦多和120-21-S) 我已经成功地解析了文档的其他部分,但是,我似乎无法隔离这些跨度。代码片段来自一个更大的页面(整页)。我可能使用了错误的方法,但下面是我为捕获父DIV之间的跨度所做的工作(结果在帖子顶部)。 所以现在我有了第一个