问题：

用漂亮的汤刮除超过渲染的数据

訾安邦

2023-03-14

我从谷歌应用商店抓取应用名称，每个网址作为输入，我只得到60个应用（因为如果用户不向下滚动，网站会呈现60个应用）。它是如何工作的，我如何才能从一个页面刮所有的应用程序使用美丽的汤和/或硒？

非常感谢。

这是我的密码：

urls = []

urls.extend(["https://play.google.com/store/apps/category/NEWS_AND_MAGAZINES/collection/topselling_paid"])

for i in urls:
    response = get(i)
    html_soup = BeautifulSoup(response.text, 'html.parser')
    app_container = html_soup.find_all('div', class_="card no-rationale square-cover apps small")
    file = open("./InputFiles/applications.txt","w+")
    for i in range(0, len(app_container)):
        #print(app_container[i].div['data-docid'])
        file.write(app_container[i].div['data-docid'] + "\n")

    file.close()
num_lines = sum(1 for line in open('./InputFiles/applications.txt'))
print("Applications : " + str(num_lines) )

共有1个答案

邓德厚

2023-03-14

在这种情况下，您需要使用Selenium。我为你尝试一下，并获得所有应用程序。我会尽力解释，希望你能理解。

使用Selenium比其他Python函数更强大。我使用了ChromeDriver，所以如果你还没有安装，你可以在中安装它

http://chromedriver.chromium.org/

from time import sleep
from selenium import webdriver


options = webdriver.ChromeOptions()
driver=webdriver.Chrome(chrome_options=options, 
executable_path=r'This part is your Driver path')
driver.get('https://play.google.com/store/apps/category/NEWS_AND_MAGAZINES/collection/topselling_paid')

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") ## Scroll to bottom of page with using driver
sleep(5) ## Give a delay for allow to page scroll . If we dont program will already take 60 element without letting scroll
x = driver.find_elements_by_css_selector("div[class='card-content id-track-click id-track-impression']") ## Declare which class

for a in x:
  print a.text
driver.close()

输出：

1. Pocket Casts
Podcast Media LLC
₺24,99
2. Broadcastify Police Scanner Pro
RadioReference.com LLC
₺18,99
3. Relay for reddit (Pro)
DBrady
₺8,00
4. Sync for reddit (Pro)
Red Apps LTD
₺15,00
5. reddit is fun golden platinum (unofficial)
TalkLittle
₺9,99
... **UP TO 75**

注:

不要介意钱。这是我的国家货币，所以它会换成你的。

根据您的评论更新：

span标记中也有相同的数据docid。您可以使用get\u属性获取它。只需将以下代码添加到您的项目中。

y = driver.find_elements_by_css_selector("span[class=preview-overlay-container]")

for b in y :
   print b.get_attribute('data-docid')

输出

au.com.shiftyjelly.pocketcasts
com.radioreference.broadcastifyPro
reddit.news
com.laurencedawson.reddit_sync.pro
com.andrewshu.android.redditdonation
com.finazzi.distquakenoads
com.twitpane.premium
org.fivefilters.kindleit
.... UP TO 75

类似资料：

漂亮的刮汤台

我有一小段代码来从web站点中提取表数据，然后以csv格式显示。问题是for循环多次打印记录。我不确定是不是因为标签。顺便说一句，我是Python新手。谢谢你的帮助！
用漂亮的汤刮多页

我已经获得了刮取第一页的代码，但是url从： https://www.expansion.com/empresas-de/ganaderia/granjas-en-general/index.html -- 如何创建从第2页到第65页的循环？非常感谢！
用漂亮的汤刮Flipkart网页

我试图刮此页上Flipkart： http://www.flipkart.com/moto-x-play/p/itmeajtqp9sfxgsk?pid=MOBEAJTQRH4CCRYM 我试图找到的div类"fk-ui-ccarousel超级容器相同的vreco部分reco-carousel-边界-顶部sameHorizontalReco"，但它返回空结果。 divs是空的。我使用inspect元
用漂亮的汤从div tag刮href

我有一个带有div标签的页面源，如下面的示例页面源。我想像下面的例子一样刮掉所有的网址，并将它们保存在列表中。示例url：来自：我尝试使用下面的代码从href中刮取网址。我试图使用span类来过滤只包含作业卡search__easy飞机的div标签。代码不返回任何网址，只是一个空列表。我对美丽的汤和硒不熟悉。如果有人能指出我的问题是什么，并提出一个解决方案，我会很高兴。特别是如果你也能给出一
用漂亮的汤抓取Python数据

大家好，我是Python新手。请让我知道如何使用BeautifulSoup从下面的代码部分删除数据。外面看起来像这样问：哪个是世界领先的产蛋国？中国印度日本马来西亚
使用pip安装漂亮的汤

问题内容：我正在尝试在Python 2.7中安装BeautifulSoup 。我不断收到错误消息，无法理解原因。我按照说明安装了pip，该pip已安装到以下目录：，然后尝试将其添加到路径中并运行命令。尝试了两种不同的方法：都给我这个错误信息：该外壳突出显示“安装”一词，并说这是无效的语法。我不知道发生了什么，所以任何帮助将不胜感激。问题答案：是命令行工具，而不是Python语法

用漂亮的汤刮除超过渲染的数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档