当前位置: 首页 > 知识库问答 >
问题:

谷歌爬网503服务不可用

雍焱
2023-03-14

当我在我的服务器上用wget、curl或python爬行谷歌搜索引擎时,我遇到了一个非常奇怪的问题。Google将我重定向到以[ipv4 | ipv6]开头的地址。谷歌。fr/抱歉/索引重定向。。。最后发送503错误,服务不可用。。。

有时抓取工作正常,有时不是在白天,我尝试了几乎所有可能的方法:强制ipv4/ipv6而不是主机名、引用者、用户代理、vpn、. com/. fr/、代理和tor,...

我猜这是谷歌服务器的错误...任何想法?谢谢!

wget "http://google.fr/search?q=test"
--2015-06-03 10:19:52--  http://google.fr/search?q=test
Resolving google.fr (google.fr)... 2a00:1450:400c:c05::5e, 173.194.67.94
Connecting to google.fr (google.fr)|2a00:1450:400c:c05::5e|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0 [following]
--2015-06-03 10:19:53--  http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0
Resolving ipv6.google.com (ipv6.google.com)... 2a00:1450:400c:c05::64
Connecting to ipv6.google.com (ipv6.google.com)|2a00:1450:400c:c05::64|:80... connected.
HTTP request sent, awaiting response... 503 Service Unavailable
2015-06-03 10:19:53 ERROR 503: Service Unavailable.

共有1个答案

乜建柏
2023-03-14

谷歌有触发器来嗅出机器人和其他滥用其服务条款的行为,因此他们对同一IP地址在一定时间内可以拨打的电话数量设置了限制(或“限制”)。我想大概是每分钟10个电话。举个例子:如果你在浏览器出现503错误时将Url粘贴到浏览器中,你将收到谷歌的验证码挑战,以证明你不是机器人。

我正在使用该模式。web模块所做的事情与您所做的基本相同(当然是为了无害的研究目的!),该库的文档显示了最流行的API(Google、Bing、Twitter、Facebook…)的限制。

尝试每隔15秒左右发送一次请求,以避免超出限制。

 类似资料:
  • 它以GAE标准运行。更改日志权限后更新日志: 权限已更改:triage@appspot.gserviceaccount.com 应用程序引擎默认服务帐户 编辑器日志编写器所有者 有趣的是,到上周为止,它一直运行得很好。 当我试图访问该网站时,显示503个错误。2018-07-11 11:16:26.296 CDT GET 302 0 B 1 ms Chrome 67/144.188.128.2-[

  • 问题内容: 我正在按照http://googcloudlabs.appspot.com/教程创建新的Google App Engine项目。当我尝试从本地主机运行时,却按如下所述抛出错误,但是当我将其部署正常时。(http://mynewcloudcom.appspot.com/)。请帮忙。 Eclipse控制台 问题答案: 找到了答案。我需要在JDK1.6中运行。一旦我更改了Java编译器(右键

  • 我正在尝试,为了实施新的GCM,我遵循Google get声明:http://developer.android.com/guide/google/gcm/gs.html 我被困在获取我的设备注册ID! 我的应用程序一直试图与谷歌服务器连接,这里我的错误日志: 这是我的活动代码,询问身份证: 这是我的服务代码 这是我的Android清单: 我遵循谷歌的指示,但我坚持这个服务不可用的错误, 我做错了

  • 问题内容: 我是Jetty的新手,我尝试在此处运行示例程序“ http://www.codeproject.com/Articles/128145/Run- Jetty-Web-Server-Within-Your- Application ”,但我收到了错误消息我的页面“ http:// localhost:8585 / runJetty / ” 我从Eclipse获取的错误日志: 我的xml文

  • 我正在尝试使用docker-compose和jwilder/nginx-proxy以及letsencrypt companion构建一个web应用程序,但是当我尝试时,nginx向我抛出一个503错误。 我的web应用程序是用react构建的,我制作了这个Dockerfile来构建容器映像: 这是此映像使用的nginx.config: web应用程序映像工作良好,我可以打开它,如果我只运行这个。问

  • 上述代码的结果是: 已打开。服务帐户客户端 ID 在 GSuite 中使用适当的作用域进行授权。 服务帐户适用于普通凭据。它只适用于委托凭证。 我在我们的域中尝试了不同的API(范围)和不同的用户。 我有一个同事试图从头开始编写一个样本,他得到了同样的东西。