当前位置: 首页 > 知识库问答 >
问题:

Python Beautiful Soup从一个页面中删除单个页面

谷彦君
2023-03-14

所以我计划浏览一下这个网站,这样我就可以得到每个英超球队的阵容数据。有人能帮我怎么做吗?在这个URL下,在英超标题下,我可以看到一系列UI标签中的球队列表。

我还注意到每个队的网址是这样的-https://www.skysports.com/arsenal,在那个页面里,队的链接看起来像-https://www.skysports.com/arsenal-squad.

但非英超球队也是如此。

最初,我还能够为球队和他们的积分等刮取英超积分表,并将其放入csv中。。所以我可以用它来构建URL来获取单个团队的数据?下面是我在csv中的示例

位置,团队,Pl,W,D,L,F,A,GD,Pts 1,曼城,9,7,2,0,26,3,23,23 2,利物浦,9,7,2,0,16,3,13,23

共有1个答案

韦阳晖
2023-03-14

使用母版页面上的链接来解析详细信息页面的正确地址,而不是猜测网址(正如您提到的,在首映联赛中失败)。

你需要用漂亮的汤:

  1. 获取链接到您需要的详细页面的链接(a)。
  2. 获取此链接的href
  3. 如果链接是相对的,你需要针对当前页面解析它,所以使用urllib从url中提取路径,然后使用newpath=os.abspath(os.path.join(curpath, href)),坚持这回到你的域名的url。
  4. 现在您有详细页面的名称。

对于所处的页面类型,您可能会提出一些不同的情况,查找仅出现在所查看页面上的id或类,或者使用字符串模式来确定要使用的页面解析器。

 类似资料:
  • 问题内容: 我目前正在使用iText,我想知道是否可以从PDF文件删除页面? 我已经用阅读器等打开了它,我想先删除一个页面,然后再将其保存回新文件。我怎样才能做到这一点? 问题答案: “删除”页面的“更好”方式正在 这意味着我们只会选择1-5、10-12页,有效地“删除” 6-9页。

  • 我已经能够设置询价显示,当我没有列出一个价格在woocommerce这将是惊人的,除了当你试图添加产品到推车,它显示为免费。是否有一种方法只需从产品页面中单独删除buy按钮?对于可变产品,我也遇到了类似的问题。Buy是存在的,但它实际上并没有添加到cart中,所以只要去掉产品上的按钮就好了。

  • 问题内容: 我正在使用Selenium WebDriver(ChromeDriver)。我需要在处理后(从DOM模型中)从页面中删除一些元素。 例如,我有以下元素: 如何从浏览器DOM模型中删除? 如何使用Selenium WebDriver在Java中实现它?请举一个例子。 问题答案: 您必须执行JavaScript代码才能进行DOM更改。

  • 我试着从这一页中刮出博彩赔率: https://www.interwetten.com/en/sportsbook/top-leagues?toplinkid=1 现在我得到的输出是: 现在我想提取每个中的团队名,但我不知道如何提取。我尝试使用节点或attrs,但没有效果。

  • 所以我有适当的代码来删除所有帖子的第一个图像(这是因为我在引入特色图像之前在每个帖子的顶部放了一个图像,一旦创建了特色图像,我就把代码放在适当的位置来删除第一个图像所以我不必回去手动操作)。我试图让它为AMP页面工作,但还没能弄清楚。 这是普通页面的功能。 由于这并没有删除AMP页面上的第一个图像,我尝试了这样的东西,其中有一些正确的元素,但不起作用。 关于如何让AMP内容工作,有什么想法吗?

  • 主要内容:从现有文档中删除页面,示例现在让我们学习如何从PDF文档中移除页面。 从现有文档中删除页面 使用类的方法从现有的PDF文档中移除页面。 第1步:加载现有的PDF文档 使用类的静态方法加载现有的PDF文档。 此方法接受一个文件对象作为参数,因为这是一个静态方法,可以使用类名称调用它,如下所示。 第2步:列出页数 使用方法列出PDF文档中存在的页面数量,如下所示。 第3步:删除页面 使用类的方法从PDF文档中移除页面。 对于此