问题：

用bs4 Beautiful Soup刮多页-只刮第一页

陈项禹

2023-03-14

***我的代码只用于练习！

我试图从FPL的网站上删除每个玩家的名字和团队https://www.premierleague.com/我的代码有一些问题。

问题是它只得到的页面与'-1'在网址的末尾，whch我甚至没有灌输在我的页面列表！

页面没有任何逻辑-基本url是https://www.premierleague.com/players?se=363

我的代码：

import requests
from bs4 import BeautifulSoup
import pandas

plplayers = []

pl_url = 'https://www.premierleague.com/players?se=363&cl='
pages_list = ['1', '2', '131', '34']
for page in pages_list:
    r = requests.get(pl_url + page)
    c = r.content
    soup = BeautifulSoup(c, 'html.parser')
    player_names = soup.find_all('a', {'class': 'playerName'})



    for x in player_names:
        player_d = {}
        player_teams = []
        player_href = x.get('href')
        player_info_url = 'https://www.premierleague.com/' + player_href
        player_r = requests.get(player_info_url, headers=headers)
        player_c = player_r.content
        player_soup = BeautifulSoup(player_c, 'html.parser')
        team_tag = player_soup.find_all('td', {'class': 'team'})
        for team in team_tag:
            try:
                team_name = team.find('span', {'class': 'long'}).text
                if '(Loan)' in team_name:
                    team_name.replace('  (Loan) ', '')
                if team_name not in player_teams:
                    player_teams.append(team_name)
                player_d['NAME'] = x.text
                player_d['TEAMS'] = player_teams
            except:
                pass
        plplayers.append(player_d)


df = pandas.DataFrame(plplayers)
df.to_csv('plplayers.txt')

共有1个答案

越学文

2023-03-14

我会对此发表评论，但我是新来的，没有足够的声誉，所以我必须在回答中保留它。

看起来，当您请求存储在player\r中时，您指定了headers参数，但实际上没有创建headers变量。

如果替换player\u r=请求。使用player\u r=requests获取（player\u info\u url，headers=headers）。获取（player\u info\u url）相反，您的代码应该可以完美运行。至少在我的机器上是这样的。

类似资料：

用漂亮的汤刮多页

我已经获得了刮取第一页的代码，但是url从： https://www.expansion.com/empresas-de/ganaderia/granjas-en-general/index.html -- 如何创建从第2页到第65页的循环？非常感谢！
用Scrapy刮Ajax页面？

问题内容：我正在使用Scrapy从该页面抓取数据 https://www.bricoetloisirs.ch/magasins/gardena 产品列表会动态显示。查找网址以获取产品 https://www.bricoetloisirs.ch/coop/ajax/nextPage/(cpgnum=1&layout=7.01-14_180_69_164_182&uiarea=2&carea=%24
刮刮奖

实现一个刮刮乐的刮奖效果。即用手指滑动刮奖区，会刮去上面一层视图，显示下面一层视图的内容。 [Code4App.com]
用Python进行网页刮取

最近我一直在用Python和靓汤学习网页刮刮乐。然而，当我试图刮下下面的页面时，我遇到了一点麻烦： http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签，但我找不到任何方法来获取数据，尽管我花了很多时间在网上拖网。我试着在网上看了几本指南，但似乎没有一本奏效。我尝试将页面转换为XML和JSON，但仍然找不到数据。我现在有点手足无
如何使用selenium从一个页面中刮取多个网页？

最近，我一直试图从一个网站上获取大量的定价，从一个页面开始，每个项目的页面都链接到起始页面。我希望运行一个脚本，允许我单击某个项目的框，删除该项目的定价和描述，然后返回起始页并继续该循环。然而，有一个明显的问题，我在刮掉第一件物品后遇到了。返回起始页后，容器没有定义，因此出现了一个陈旧的元素错误，该错误会中断循环并阻止我获取其余的项。这是我使用的示例代码，希望能够一个接一个地刮去所有项目。然而，
20行JS代码实现网页刮刮乐效果

本文向大家介绍20行JS代码实现网页刮刮乐效果，包括了20行JS代码实现网页刮刮乐效果的使用技巧和注意事项，需要的朋友参考一下分享一段用canvas和JS制作刮刮乐的代码，JS部分去掉注释不到20行代码效果如下盖伦.jpg 刮刮乐.gif HTML部分没什么要特别注意的为了效果加了些CSS样式 CSS部分注意 1.为了清除浏览器自带效果加了 2.img需要在灰布下面,加了z-index

用bs4 Beautiful Soup刮多页-只刮第一页

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档