问题：

用Python从电子商务Ajax站点抓取JSON数据

赫连黎昕

2023-03-14

在此之前，我发布了一个关于如何从AJAX网站获取数据的问题，该网站来自以下链接：使用python抓取AJAX电子商务网站

我对如何使用chrome F12 in Network选项卡获得响应有点了解，并使用python进行一些编码以显示数据。但我几乎找不到它的特定API url。JSON数据不像以前的网站那样来自URL，但它位于Chrome F12中的Inspect元素中。

还有一个问题是，在我运行代码几次之后，JSON数据丢失了。我想网站会屏蔽我的IP地址。我如何解决这个问题？

以下是网站链接：

https://www.lazada.com.my/catalog/?_keyori=ss

这是我的密码

从bs4导入组导入请求

页面链接https://www.lazada.com.my/catalog/?_keyori=ss

page_response=requests.get（page_link，超时=5）

page\u content=BeautifulSoup（page\u response.content，“html.parser”）

打印（第页内容）

共有3个答案

单勇

2023-03-14

尝试：

import requests

response = requests.get(url)
data = response.json()

虞华彩

2023-03-14

您必须从Soup手动解析HTML中的数据，因为其他网站将从其他方限制其json API。

你可以在这里找到更多的细节留档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

须景胜

2023-03-14

您只需使用find方法，将指针指向您的

然后可以使用json包在dict中加载值

下面是一个代码示例：

from bs4 import BeautifulSoup as soup
import requests
import json

page_link = 'https://www.lazada.com.my/catalog/?_keyori=ss&from=input&page=1&q=h370m&sort=priceasc'
page_response = requests.get(page_link, timeout=5)
page_content = soup(page_response.text, "html.parser")

json_tag = page_content.find('script',{'type':'application/json'})
json_text = json_tag.get_text()
json_dict = json.loads(json_text)
print(json_dict)

编辑：我的错，我没有看到您搜索type=application/ld jsonattr，因为它似乎有几个

from bs4 import BeautifulSoup as soup
import requests
import json

page_link = 'https://www.lazada.com.my/catalog/?_keyori=ss&from=input&page=1&q=h370m&sort=priceasc'
page_response = requests.get(page_link, timeout=5)
page_content = soup(page_response.text, "html.parser")

json_tags = page_content.find_all('script',{'type':'application/ld+json'})
for jtag in json_tags:
    json_text = jtag.get_text()
    json_dict = json.loads(json_text)
    print(json_dict)

用Python从电子商务Ajax站点抓取JSON数据

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档