当前位置: 首页 > 面试题库 >

被robots.txt禁止:scrapy

向泽语
2023-03-14
问题内容

在抓取https://www.netflix.com之类的网站时,被robots.txt禁止:https://www.netflix.com/>

错误:未下载以下响应:https :
//www.netflix.com/


问题答案:

在2016年5月11日发布的新版本(scrapy
1.1)中,抓取功能先在抓取之前下载了robots.txt。要更改此行为,请settings.py使用ROBOTSTXT_OBEY

ROBOTSTXT_OBEY = False

这是发行说明



 类似资料:
  • (不过反正码头工人这边似乎一切都ok了...)我在网上读过数百篇文章,但无法找到从任何浏览器访问index.html的方法。我想也许我应该在httpd.conf中添加一些Vhosts(就像我在Xampp或Wamp下所做的那样),但我没有在apache容器中找到这个文件,而且我也不知道如何从我的docker-compose YML中为httpd.conf中的Vhosts添加指令。但这是我个人的想法,

  • 例子 #if (GCC_VERSION > 4000) #define DEBUG_FUNCTION __attribute__ ((__used__)) #define DEBUG_VARIABLE __attribute__ ((__used__)) #else #define DEBUG_FUNCTION #define DEBUG_VARIABLE #endif DEBUG_FUNCT

  • 我在使用Debian 7的笔记本电脑上遇到了403禁止错误 nginx错误日志显示: 2013/07/05 16:27:06[错误]7351#0:*12目录索引“/var/www/install/”被禁止,客户端:127.0.0.1,服务器:localhost,请求:“get/install/http/1.1”,主机:“localhosts” phpinfo工作正常 worker_processe

  • 本文向大家介绍如何能防止网页禁止被iframe嵌入呢?相关面试题,主要包含被问及如何能防止网页禁止被iframe嵌入呢?时的应答技巧和注意事项,需要的朋友参考一下

  • 在我的google控制台中,重定向url-<br>xyz.com/change/googlelogin 在我的浏览器中-用谷歌认证登录后,它显示我喜欢-< br > xyz.com/change/googlelogin?code = 4/sgan q7t _ o5l 7 bdpgamq 4 _ s-c0Abz _ wxsvpit 5 bpqdaklidf 0 qyoqictxyw 7 cuqhh

  • 我正在遵循一个教程来让kie-drools-workbench和kie-server工作:https://www.intertech.com/blog/simple-setup-of-drools-kie-workbench-and-kie-server-in-one-wildfly-instance/ 安装了wildfly,并下载了kie-server-6.4.0.final-ee7和kie-d