当前位置：首页 > 面试题库 >

Web抓取具有动态javascript内容的网站

司徒河

2023-03-14

问题内容：

因此，我正在使用python和beautifulsoup4（我不受其约束）来抓取网站。问题是当我使用urlib抓取页面的html时，它不是整个页面，因为其中一些是通过javascript生成的。有什么办法可以解决这个问题？

问题答案：

基本上有两个主要选项可以继续：

使用浏览器开发人员工具，查看哪些ajax请求将加载页面并在脚本中模拟它们，您可能需要使用json模块将响应json字符串加载到python数据结构中
使用诸如硒之类的工具打开真正的浏览器。浏览器也可以是“无头的”，请参阅使用Python和PhantomJS进行无头硒测试

第一个选项更难以实现，并且通常来说更脆弱，但是它不需要真正的浏览器，并且可以更快。

第二种选择是更好的，因为您可以获得其他任何实际用户所得到的东西，并且您不必担心页面的加载方式。Selenium在定位页面上的元素方面非常强大-
您可能根本不需要BeautifulSoup。但是，无论如何，此选项比第一个慢。

希望能有所帮助。

类似资料：

抓取网站中的动态内容

问题内容：我需要从此网站Link中抓取新闻公告。公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化，但是我认为它不会起作用。我该怎么办？我可以使用python或perl。问题答案：礼貌的选择是询问网站所有者是否具有允许您访问其新闻报道的API。不太礼貌的选择是跟踪页面加载时发生的HTTP事务，并确定哪一个是AJAX调用，该调用会提取数据。看起来就是这个。但是看起来它可能包含会
使用python Web抓取动态内容

问题内容：我想使用Python在这样的网页上抓取“正在寻找这些作者：”框中的内容：http : //academic.research.microsoft.com/Search?query=lander 不幸的是，盒子的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有
用python抓取动态内容

我想使用Python在这样的网页上抓取“你在寻找这些作者吗”框的内容：http://academic.research.microsoft.com/Search?query=lander 不幸的是，该框的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者我可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有这样的运气。。。
如何使用node.js抓取具有动态内容的页面？

问题内容：我正在尝试抓取一个网站，但我没有得到某些要素，因为这些要素是动态创建的。我在node.js中使用了cheerio，下面是我的代码。此代码返回空响应，因为加载页面时，该页面为空。内容尚未添加。如何使用node.js获取这些元素？如何抓取具有动态内容的页面？问题答案：干得好;
python+selenium+PhantomJS抓取网页动态加载内容

本文向大家介绍python+selenium+PhantomJS抓取网页动态加载内容，包括了python+selenium+PhantomJS抓取网页动态加载内容的使用技巧和注意事项，需要的朋友参考一下环境搭建准备工具：pyton3.5,selenium,phantomjs 我的电脑里面已经装好了python3.5 安装Selenium pip3 install selenium 安装Phan
使用python-Scrapy抓取动态内容

问题内容：免责声明：我在StackOverflow上看到过许多其他类似的帖子，并尝试以相同的方式进行操作，但是它们似乎在此网站上不起作用。我正在使用Python-Scrapy从koovs.com获取数据。但是，我无法获得动态生成的产品尺寸。具体来说，如果有人可以引导我从此链接的下拉菜单中获取“不可用”尺寸标签，我将不胜感激。我可以静态获取尺寸列表，但这样做只能得到尺寸列表，但不能获得其中的

相关阅读

使用python-Scrapy抓取动态内容如何从无限滚动网站上抓取所有内容？可以使用scrapy从使用AJAX的网站中抓取动态内容吗？Python-可以使用scrapy从使用AJAX的网站中抓取动态内容吗？ASP.NET抓取网页内容的实现方法

相关文章

静态和动态网页优缺点网易内容运营实习面经 Nginx配置静态内容服务器动态内存管理机制网易内容运营岗面经分享

相关问答

UIScrollView内具有动态高度的容器视图，具有自动布局如何“抓取”类标记内的内容并仅使用javascript显示内容？如何用Python抓取javascript网站？spring boot未启动静态web内容如何“抓取”类标记中的内容并仅使用JavaScript显示内容？

相关工具

获取网页的所有图片 Javascript工具包多线程页面抓取服务器 WEB FTP文件管理工具 coreplot动态线

相关文档

自己动手写 servlet 容器具有高级安全性的 Windows 防火墙网站设计解构：有效的交互设计框架和模式静态网站构建手册之使用 Hugo 构建个人博客略知知识付费与内容变现帮助文档