我正在尝试使用googlesearch和报纸3k
python软件包的组合来获取文章列表。当使用article.parse时,我最终得到一个错误:报纸.article.ArticleException:文章download()
失败,出现403客户端错误:网址禁止:https :
//www.newsweek.com/donald-trump-hillary-
clinton-2020- URL上的rally-orlando-1444697
https://www.newsweek.com/donald-trump-hillary-
clinton-2020-rally-orlando-1444697
我已尝试在执行脚本时以admin身份运行,并且在浏览器中直接打开时该链接有效。
这是我的代码:
import googlesearch
from newspaper import Article
query = "trump"
urlList = []
for j in googlesearch.search_news(query, tld="com", num=500, stop=200, pause=.01):
urlList.append(j)
print(urlList)
articleList = []
for i in urlList:
article = Article(i)
article.download()
article.html
article.parse()
articleList.append(article.text)
print(article.text)
这是我的完整错误输出:
Traceback (most recent call last):
File "C:/Users/andre/PycharmProjects/StockBot/WebCrawlerTest.py", line 31, in <module>
article.parse()
File "C:\Users\andre\AppData\Local\Programs\Python\Python37\lib\site-packages\newspaper\article.py", line 191, in parse
self.throw_if_not_downloaded_verbose()
File "C:\Users\andre\AppData\Local\Programs\Python\Python37\lib\site-packages\newspaper\article.py", line 532, in throw_if_not_downloaded_verbose
(self.download_exception_msg, self.url))
newspaper.article.ArticleException: Article `download()` failed with 403 Client Error: Forbidden for url: https://www.newsweek.com/donald-trump-hillary-clinton-2020-rally-orlando-1444697 on URL https://www.newsweek.com/donald-trump-hillary-clinton-2020-rally-orlando-1444697
我希望它只是输出文章的文本。您能提供的任何帮助都会很棒。谢谢!
我通过更改用户代理使其工作
from newspaper import Article
from newspaper import Config
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
config = Config()
config.browser_user_agent = user_agent
page = Article("https://www.newsweek.com/donald-trump-hillary-clinton-2020-rally-orlando-1444697", config=config)
page.download()
page.parse()
print(page.text)
我正在使用OAuth谷歌API,我收到。这与客户端 ID 或客户端机密代码无关,因为我确信我完美地复制了密钥。我再次创建了一个新凭据,以确保它不是Google API的问题,但错误仍然存在。当我运行服务器时,我也不会在控制台中收到任何错误。有人可以帮助我吗? 这是我从浏览器收到的内容: 这是我代码的一部分: 谢谢!:)
我们有一个用于Office 356的标准ADFS服务器。我现在创建了一个MVC内联网/页面,我也通过ADFS保护它。对于ADF,我已经编写了两个MFA提供商,一个使用SMS,另一个使用TOTP。一切都准备就绪。所有用户都可以登录,但某些用户或某些机器的MFA(某些页面的逐步验证)有时会失败。(随机选择他们是否工作) 一个错误(由ADFS引发)将在客户端浏览器中显示如下: 活动ID:00000000
我的软件使用RabbitMQ进行通信。然而,Veracode已从amqp客户端库中标记CWE 117(日志的输出中和不正确)。 我已经尝试升级到最新版本(4.11.3),但Veracode仍然不让我通过。我无法进一步升级,因为我的软件是用Java7编写的,客户端没有任何升级到Java8的计划。 我可以在我的软件代码中做些什么来解决CWE 117问题吗?
我已经用Jersey设置了一个使用JSON的REST客户端。首先是根据巴尔东和莫西的指导,其次是根据瓦丁和杰克逊的指导。 来自REST服务的JSON响应如下所示: 所以我建立了一个简单的JAXB bean。。。 ... 添加了Maven依赖项。。。 ... 并实现了一个REST客户端: 然而,当使用MOXy媒体转换器时,所有POJO字段始终为空,而不管根据类似问题使用的注释和构造函数(例如no-a
问题内容: 我有一个boto3客户: 但是它发生在新机器上,它们动态地打开和关闭。 为什么会这样呢?为什么只有部分时间呢? 问题答案: 您必须以一种或另一种方式告诉boto3您希望在哪个区域创建客户端。可以使用参数明确地完成此操作,如下所示: 或者您可以在文件中具有与个人资料相关联的默认区域,如下所示: 或者您可以使用如下环境变量: 但您确实需要告诉boto3使用哪个区域。
我试图实现一个使用客户端证书保护的ASP.NET核心WebAPI应用程序。我使用了来自Internet的Docs.Microsoft和其他网站的示例代码。为了测试我所构建的内容,我生成了CA证书、服务器证书和客户端证书。服务器和客户端证书都是使用该CA创建的。我还将CA证书添加到TrustedRoot存储中。 运行应用程序后,每次使用客户端证书调用该endpoint时,我都会收到403个错误。与4
Checkmarx扫描仪扫描“反射XSS所有客户端”。如何在JavaRESTAPI中解决这个问题? 本地运行了REST API服务的扫描。