当前位置: 首页 > 知识库问答 >
问题:

使用Python lxml抓取数据返回adBlock ker值

呼延化
2023-03-14

我目前正在抓取HTML,以便从我在Discord中创建的机器人的网页中获取一些数据。我以前曾成功地使用lxml从不同的网站上刮取HTML,但是,我现在尝试刮取的网站正在检测adblocker,因此无论我尝试刮取什么数据,我都会收到相同的值;

我的代码如下`从lxml导入html导入请求导入sys

def main(arg):页面=请求。得到(”https://fortnitetracker.com/profile/pc/“arg)tree=html。fromstring(page.content)

killdeath = tree.xpath('//div[@class="stats">K/d]/text()')
print(killdeath)`

我得到的值是“代码>”请考虑将FnTITE跟踪器添加到AdBuffice白名单中!我们的广告支持运行此网站的开发和硬件成本。真的讨厌广告吗?成为一个

共有2个答案

澹台镜
2023-03-14

可能发生的是,你得到的初始页面实际上只有“请考虑......”文本和一堆实际加载你看到的内容的JavaScript。(试着打印出page.content,看看你实际上得到了什么。)

无论如何,因为请求库不是一个成熟的网络浏览器,它不执行JavaScript,所以你只看到广告拦截器消息。

段干帅
2023-03-14

网站上说:

为了使用我们的API,我们要求您使用API密钥。要使用API密钥,您需要将其作为标头与请求一起传递。

您是否将标题添加到请求中?此外,我建议在postman或类似的应用程序中发出请求,这样你就可以看到整个响应。

 类似资料:
  • 问题内容: 我在下面的这段代码中遇到了问题,该代码几乎逐字从Firebase SDK Java文档复制而来。我是真正的语言(例如Java)的新手,它来自PHP和JavaScript的webdev背景。 基本上,addListenerForSingleValueEvent不会触发以向我返回数据。我注意到这是因为系统打印输出不会触发,因此我认为监听事件没有触发。 我怀疑这与我有限的知识有关,函数本身是

  • 我有以下实体: 我还有一个Spring数据JPA存储库,定义如下: 当我从存储库中执行find-method时,我想急切地加载TextRow。因此,我在上面的代码中引入了NamedEntityGraph-和EntityGraph-注释。 在数据库的文本表中有2个条目,在文本行表中各有3个条目。 我希望findAllByBelongsTo方法返回一个包含两个文本实例的列表。相反,它返回一个包含6个文

  • 问题内容: 我正在做一个项目,我需要做很多屏幕抓取工作,以尽可能快地获取大量数据。我想知道是否有人知道任何好的API或资源来帮助我。 顺便说一下,我正在使用Java。 到目前为止,这是我的工作流程: 连接到网站(使用来自Apache的HTTPComponents) 网站包含一个带有一堆我需要访问的链接的部分(使用内置的Java HTML解析器来弄清楚我需要访问的所有链接是什么,这很烦人且凌乱的代码

  • 随着物联网的发展,连接到互联网的设备数量呈指数增长,物联网信息安全越来越重要。 因此,TLS逐渐成为物联网通讯的标配。但是TLS是加密传输,这给调试增加了一定的难度。 笔者最近工作中一直用到HTTPS,但是苦于wireshark只能抓取HTTP的明文数据包,无法抓取HTTPS的数据包,于是就有了这篇文章,使用wireshark抓取HTTPS的数据包. 简单介绍TLS1.2握手和协商过程 clien

  • 随着物联网的发展,连接到互联网的设备数量呈指数增长,物联网信息安全越来越重要。 因此,TLS逐渐成为物联网通讯的标配。但是TLS是加密传输,这给调试增加了一定的难度。 笔者最近工作中一直用到HTTPS,但是苦于wireshark只能抓取HTTP的明文数据包,无法抓取HTTPS的数据包,于是就有了这篇文章,使用wireshark抓取HTTPS的数据包. 简单介绍TLS1.2握手和协商过程 clien

  • 在我的硕士论文中,我正在探索通过web自动化从网站中提取数据的可能性。步骤如下: 登录网站(https://www.metal.com/Copper/201102250376) 输入用户名和密码 单击登录 将日期更改为2020年1月1日 刮取生成的表格数据,然后将其保存到csv文件中 用我电脑上的特定名称保存到特定文件夹 运行相同的序列,在同一浏览器窗口的新选项卡中下载其他材料的其他历史价格数据