当前位置: 首页 > 知识库问答 >
问题:

怎么用python查某个站点在各个搜索引擎的收录情况?

云洋
2023-07-24

想偷懒用python每天帮我记录收录情况,但我是真的菜,发起的请求被拒绝了,还要验证,试了百度和搜狗都一样

共有1个答案

杜俊楚
2023-07-24

有一个方法,大致可以理解为根据状态显示判断是否收录。
定义一个自定义函数check_site_indexing()函数查询站点在各个搜索引擎中的收录情况。
首先,定义一个search_engines字典,其中包含不同搜索引擎的查询URL模板。然后,我们遍历search_engines字典,并使用format()方法将站点URL插入到查询URL模板中,构建出实际的查询URL。

接下来,我们使用requests库发送GET请求,并获取响应对象response。在这里,你可能需要编写额外的代码来处理验证码或其他验证机制,因为某些搜索引擎可能会对自动化请求进行验证。(网上前段时间看到一个插件可以做类似的事情,不过该插件收费且存在一定错误,所以不做过多说明推荐,只是笼统谈谈)
a8773912b31bb05171f10729367adab44bede0de.jpg

之后,我们检查响应的状态码。如果状态码为200,表示收录成功,将相应搜索引擎的收录情况设置为"已收录";否则,设置为"未收录"。

最后,我们返回收录结果字典,并展示查询结果。

然后,你可以使用以下代码来查询站点在百度和搜狗搜索引擎中的收录情况:

import requestsdef check_site_indexing(site_url):    # 定义不同搜索引擎的查询URL模板    search_engines = {        '百度': 'https://www.baidu.com/s?wd=site%3A{0}',        '搜狗': 'https://www.sogou.com/web?query=site%3A{0}'    }        # 存储收录结果的字典    index_results = {}        # 遍历所有搜索引擎    for engine, url_template in search_engines.items():        # 根据URL模板构建实际查询URL        url = url_template.format(site_url)                try:            # 发送GET请求            response = requests.get(url)                        # 对于某些搜索引擎,可能需要处理验证码或其他验证机制            # 在这里你需要编写额外的代码来处理这些情况                        # 检查响应状态码            if response.status_code == 200:                # 如果响应状态码为200,表示收录成功                index_results[engine] = "已收录"            else:                # 其他状态码表示未收录                index_results[engine] = "未收录"        except requests.exceptions.RequestException:            # 发生异常,请求失败            index_results[engine] = "请求失败"        # 返回收录结果字典    return index_results# 检查example.com在各个搜索引擎的收录情况site_url = "example.com"results = check_site_indexing(site_url)# 打印收录结果for engine, status in results.items():    print(engine + ": " + status)

这个方法当然存在一个小缺陷,就是不能频繁、大量地发送请求,可能会触发搜索引擎的安全反爬机制。当然,其他的爬虫应该也存在类似的问题。正常的访问查询是可以的。

最后补充一句,如果想准确的浏览这类数据,建议更多选择你问题详情中的图片类的网址,或者百度指数,360指数,搜狗指数一类的官方源网站订阅为好。

 类似资料:
  • 搜索引擎作为 Web 的重要的流量入口,是每个 Web App 开发者或运营者需要重点关注的一个方向,而 PWA 作为 Web 的一种形式,自然是需要关注搜索引擎对它的抓取和收录情况。通常 PWA 多数是 SPA,有以下几个原因: SPA 天然具有 App Shell,也就是作为入口的 HTML。 App Shell 和 Service Worker 配套使用非常合适。 页面间切换顺畅,体验良好。

  • 在百度上搜索有的网站会有一个图片,这个图片是收录的哪里的图片,可以人为修改吗?

  • 搜索引擎分为两部分: 时间筛选 和 搜索引擎 (详情) 1.时间筛选 便捷按钮有今日、昨日、前日、上周 X、近七天,并且能自定义选择时间段来得出想要的结果报表 2.搜索引擎 (时间段详情) 选择日期,查看来自对应时间段内,各个搜索引擎的访问量比例

  • 本文向大家介绍浅谈用Python实现一个大数据搜索引擎,包括了浅谈用Python实现一个大数据搜索引擎的使用技巧和注意事项,需要的朋友参考一下 搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。 布隆过滤器 (Bloom Filter) 第一步我们先要实现一个布

  • lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用的 restful api / Java api 接口(另外还有其他语言的 api 接口)。 分布式的文档存储

  • 搜索引擎 关键参数 报告 method metrics(指标, 数据单位) 其他参数 搜索引擎 source/engine/a pv_count (浏览量(PV)) pv_ratio (浏览量占比,%) visit_count (访问次数) visitor_count (访客数(UV)) new_visitor_count (新访客数) new_visitor_ratio (新访客比率,%) ip