当前位置: 首页 > 面试题库 >

谷歌搜索网络抓取与python中的关键字列表

殷宇
2023-03-14
问题内容

我正在尝试通过使用名称列表作为输入来在Google搜索上进行网络抓取,并在DataFame中获取数据集。之前,我曾使用selenium进行Web抓取,但在
使用循环 构建 名称列表作为输入 来获取结果并抓取每个页面的语法时,我遇到了一段艰难的时期。这是我的Python代码如下:

baseUrl = 'https://www.google.com/search?q='
pluseUrl = input('CEO: ')    
url = baseUrl + quote_plus(pluseUrl)

browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
browser.get(url)

table = browser.find_elements_by_css_selector('div.ifM9O')

df = pd.DataFrame(columns = ['ceo', 'value'])
values =[]


for row in table:
    ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
    value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")

ceo = pd.Series(ceo)
value = pd.Series(value)

df = df.assign(**{'ceo': ceo, 'value': value})


print(df)

这是将比尔·盖茨作为输入后的结果:

CEO: Bill gates
          ceo                                              value
0  Bill Gates  Born: October 28, 1955 (age 64 years), Seattle...

任何建议或建议将不胜感激。


问题答案:

试试这个:

baseUrl = 'https://www.google.com/search?q='
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
output = {}

def scrape_ceo_list(list_of_ceo):
     for ceo in list_of_ceo:
          browser.get(baseUrl + ceo)

          // query selectors, dataframes etc as per original code
          // ...

          output[ceo] = df

output 现在是一个数据帧字典,CEO名称作为字典键。



 类似资料:
  • 问题内容: 最近我一直在学习很多python,以便在工作中的某些项目上工作。 目前,我需要对Google搜索结果进行一些网页抓取。我发现了几个站点,这些站点演示了如何使用ajax google api进行搜索,但是在尝试使用它之后,似乎不再受支持。有什么建议? 我一直在寻找一种方法,但似乎找不到当前有效的解决方案。 问题答案: 您随时可以直接抓取Google搜索结果。为此,您可以使用将返回前10个

  • 问题内容: (我尝试过查找,但所有其他答案似乎都在使用urllib2) 我刚刚开始尝试使用请求,但是对于如何发送或请求页面中的其他内容,我仍然不太清楚。例如,我要 但我不知道现在该如何做,例如,使用显示的搜索栏进行Google搜索。我已经阅读了快速入门指南,但是对HTML POST之类的内容并不十分熟悉,因此它并不是很有帮助。 有没有一种干净优雅的方法来完成我要的内容? 问题答案: 要求概述 Go

  • 这是一个非常简单的脚本,但我需要帮助。 当没有为键入的文本列出建议时,网络驱动程序会单击谷歌搜索按钮(例如 macintosh)。但是当建议出现时,我如何仍然让网络驱动程序点击谷歌搜索按钮。我的代码如下: } 但得到以下错误。请帮助 在端口3288上启动ChromeDriver 2.40.565498(ea082db3280dd6843ebfb08a625e3eb905c4f5ab)仅允许本地连接

  • 我与使用google-webaffts有一个非常严重的冲突。好的,这是代码: 这是在头: 这是在css文件中: “奥斯瓦尔德”是由3种字体组成的字体系列: 书(300) 正常(400) 粗体(700) 正如你看到的那样..我只加载了粗体字(700)。(你可以在查询中看到)它一直工作到这里,但是… 问题是: 我的计算机上安装了3种字体(300,400,700)的桌面版本,只要这些字体被激活…浏览器在

  • 本文向大家介绍php获取从百度、谷歌等搜索引擎进入网站关键词的方法,包括了php获取从百度、谷歌等搜索引擎进入网站关键词的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php获取从百度、谷歌等搜索引擎进入网站关键词的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的php程序设计有所帮助。

  • 我已经完成了名称索引。它包含椅子、椅子等数据。 当我尝试用“cha”搜索时,它不会返回任何椅子。这是返回“毛毯”,我期待的文件有椅子。 下面是我的代码: 搜索请求: 搜索响应: } 映射: 我该怎么解决这个问题? 谢谢,Sri