当前位置：首页 > 面试题库 >

使用Scrapy抓取JSON响应

方兴旺

2023-03-14

问题内容：

您如何使用Scrapy抓取返回JSON的Web请求？例如，JSON如下所示：

{
    "firstName": "John",
    "lastName": "Smith",
    "age": 25,
    "address": {
        "streetAddress": "21 2nd Street",
        "city": "New York",
        "state": "NY",
        "postalCode": "10021"
    },
    "phoneNumber": [
        {
            "type": "home",
            "number": "212 555-1234"
        },
        {
            "type": "fax",
            "number": "646 555-4567"
        }
    ]
}

我将要抓取特定的项目（例如name和fax在上面）并保存到csv。

问题答案：

这与使用Scrapy的HtmlXPathSelectorhtml响应相同。唯一的区别是您应该使用json模块来解析响应：

class MySpider(BaseSpider):
    ...


    def parse(self, response):
         jsonresponse = json.loads(response.text)

         item = MyItem()
         item["firstName"] = jsonresponse["firstName"]

         return item

希望有帮助。

类似资料：

使用python-Scrapy抓取动态内容

问题内容：免责声明：我在StackOverflow上看到过许多其他类似的帖子，并尝试以相同的方式进行操作，但是它们似乎在此网站上不起作用。我正在使用Python-Scrapy从koovs.com获取数据。但是，我无法获得动态生成的产品尺寸。具体来说，如果有人可以引导我从此链接的下拉菜单中获取“不可用”尺寸标签，我将不胜感激。我可以静态获取尺寸列表，但这样做只能得到尺寸列表，但不能获得其中的
Python使用Scrapy框架进行抓取

本文向大家介绍Python使用Scrapy框架进行抓取，包括了Python使用Scrapy框架进行抓取的使用技巧和注意事项，需要的朋友参考一下示例首先，您必须建立一个新的Scrapy项目。输入要存储代码并运行的目录：要刮擦，我们需要一只蜘蛛。蜘蛛定义了如何刮除某个站点。以下是蜘蛛的代码，该代码遵循指向StackOverflow上投票最高的问题的链接，并从每个页面中抓取一些数据（源）：将您的
Python使用scrapy抓取网站sitemap信息的方法

本文向大家介绍Python使用scrapy抓取网站sitemap信息的方法，包括了Python使用scrapy抓取网站sitemap信息的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：希望本文所述对大家的Python程序设计有所帮助。
使用Python Scrapy时的HTTP 403响应

问题内容：我在Windows Vista 64位上使用Python.org版本2.7 64位。我一直在测试以下Scrapy代码以递归方式Scrapy所有页面，该页面用于足球统计数据：该代码正在执行，没有任何错误，但是在Scrapy的4623个页面中，有217个的HTTP响应代码为200，第2个的代码为302，第4404个的代码为403。任何人都可以在代码中立即看到任何关于为什么会这样的明显信息
可以使用scrapy从使用AJAX的网站中抓取动态内容吗？

问题内容：我最近一直在学习Python，并全力以赴来构建网络抓取工具。一点都不花哨。其唯一目的是从博彩网站上获取数据并将其放入Excel。大多数问题都是可以解决的，我周围有些混乱。但是，我在一个问题上遇到了巨大的障碍。如果站点加载一张马表并列出当前的投注价格，则此信息不在任何源文件中。提示是该数据有时是活动的，并且明显从某个远程服务器更新了这些数据。我PC上的HTML只是有一个漏洞，他们的服务
NodeJS Http使用JSON响应获取URL

问题内容：我是Node开发的新手，我正在尝试使用具有JSON响应的RESTful协议进行服务器端API调用。我已经阅读了API文档和本SO帖子。我试图从轨道总线中提取的API并以JSON输出返回数据。我对如何使用实际URL中的所有参数和选项发出HTTP GET请求感到困惑。甚至可以通过浏览器或使用“ curl”命令来访问API及其响应。http://developer.cumtd.com/ap

使用Scrapy抓取JSON响应

相关阅读

相关文章

相关问答

相关工具

相关文档