问题：

如何仅在使用Python请求加载数据后才能刮取html表？

蒲德曜

2023-03-14

我正在尝试使用python学习数据抓取，并一直在使用Requests和BeautifulSoup4库。它适用于普通网站。但是，当我试图从网站中获取一些数据时，我发现我得到了一个空表，其中表数据在延迟后加载。一个例子就是这个网页

我试过的剧本是相当常规的。

import requests
from bs4 import BeautifulSoup

response = requests.get("http://www.oddsportal.com/soccer/england/premier-league/everton-arsenal-tnWxil2o#over-under;2")
soup = BeautifulSoup(response.text, "html.parser")

content = soup.find('div', {'id': 'odds-data-portal'})

数据加载到页面的表赔率数据门户中，但代码没有给出。如何确保该表已加载数据并首先获取数据？

共有2个答案

孟均

2023-03-14

您需要使用类似于selenium的东西来获取html。不过，您可以继续使用BeautifulSoup对其进行如下解析：

from bs4 import BeautifulSoup
from operator import itemgetter
from selenium import webdriver

url = "http://www.oddsportal.com/soccer/england/premier-league/everton-arsenal-tnWxil2o#over-under;2"
browser = webdriver.Firefox()

browser.get(url)
soup = BeautifulSoup(browser.page_source)
data_table = soup.find('div', {'id': 'odds-data-table'})

for div in data_table.find_all_next('div', class_='table-container'):
    row = div.find_all(['span', 'strong'])

    if len(row):
        print ','.join(cell.get_text(strip=True) for cell in itemgetter(0, 4, 3, 2, 1)(row))

这将显示：

Over/Under +0.5,(8),1.04,11.91,95.5%
Over/Under +0.75,(1),1.04,10.00,94.2%
Over/Under +1,(1),1.04,11.00,95.0%
Over/Under +1.25,(2),1.13,5.88,94.8%
Over/Under +1.5,(9),1.21,4.31,94.7%
Over/Under +1.75,(2),1.25,3.93,94.8%
Over/Under +2,(2),1.31,3.58,95.9%
Over/Under +2.25,(4),1.52,2.59,95.7%

更新-正如@JRodDynamite所建议的，运行无头的PhantomJS可以用来代替Firefox。要做到这一点：

提取phantomjs。exe可执行文件，并确保它位于您的路径中。

更改以下行：browser=webdriver。PhantomJS（）

邹山

2023-03-14

对不起，我打不开链接。但该表可能是通过以下两种方式之一生成的：

完全由JavaScript实现，没有AJAX调用
使用AJAX调用和一些JavaScript进行DOM操作

如果这是第一种情况，那么你别无选择，只能在Python中使用selenium-webDrive。另外，你可以看看这个答案中的例子。

如果是第二种情况，那么可以找出发送的URL和数据，然后使用请求模块发送类似的请求来获取数据。数据可以是JSON格式或超文本标记语言（取决于开发人员的水平）。您必须相应地解析它。

有时，AJAX调用可能需要CSRF令牌或cookie作为数据，在这种情况下，您必须在第一种情况下返回到解决方案。

如何仅在使用Python请求加载数据后才能刮取html表？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档