当前位置: 首页 > 编程笔记 >

Node.JS利用PhantomJs抓取网页入门教程

赫连华皓
2023-03-14
本文向大家介绍Node.JS利用PhantomJs抓取网页入门教程,包括了Node.JS利用PhantomJs抓取网页入门教程的使用技巧和注意事项,需要的朋友参考一下

前言

当想用 nodejs 抓取一些网页 , 我第一反应想到的就是使用 http 模块 , 比如抓取百度首页:

var http = require('http');
var req = http.request('http://www.baidu.com/', function (res) {
 res.setEncoding('utf8');
 res.on('data', function (chunk) {
  //响应内容
  console.log(chunk)
 });
});
req.end(function () {
 // console.log('连接关闭');
});

但是 , 这仅限于简单地抓取 html , 有很大的局限性。

假如你想要的内容不在 html 里 , 而是 js 动态生成的 , 那 http 模块就不能满足你的需求了 ;

假如网页使 gbk 编码的 , 上述方法也不太好用了。

假如是 https 上述方法也要改一改了。

我渴望一个更强大 , 但使用起来也不麻烦的工具。

PhantomJs

用 PhantomJs 就可以解决上述问题。

PhantomJs 就是一个没有界面的浏览器。

安装

使用 cnpm 安装 PhantomJS 即可:

cnpm install phantomjs --save-dev

这里我没有选择全局安装 , 因为全局安装的话 , 别人使用我的源码的时候 , 不知道还有这么一个依赖 , 项目就跑不起来了。

如果你也选择局部安装 , 那么你需要在 package.json 里的 scripts 中加入一段 :

"phantomjs":"node_modules/.bin/phantomjs"

等下会用到这个的 , 到这里 , 安装算完成了。

写代码

我们新建一个文件 , 名字随意 , 这里我新建一个 main.js :

var webpage = require('webpage');
var page = webpage.create();
page.open('http://www.baidu.com/', function (status) {
 var data;
 if (status === 'fail') {
  console.log('open page fail!');
 } else {
  console.log(page.content);//打印出HTML内容
 }
 page.close();//关闭网页
 phantom.exit();//退出phantomjs命令行
});

这里有个 webpage 模块 , 我们刚才明明没有这个模块 , 为什么能引用这个模块 ???

当然不能引用 , 假如我们使用 node main.js 来跑这段代码 , 是跑不起来的 , 应该这样运行这段代码 :

npm run phantomjs main.js

这里的 npm run phantomjs 对应的就是前面我们在 package.json 里加入的那段命令 , 很方便吧 , 几乎和 http 模块一样方便。

page.content 就是 html 代码了 , 这个 page 对象还有很多的属性 , 功能更强大。

到这里 , 你就已经算入门了 , 想知道更多可以去 phantomjs 官网看看文档了。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对小牛知识库的支持。

 类似资料:
  • 学习 Node.js 有段时间了,入门时很迷茫。于是想以自己的入门水平来写这教程给未入门的朋友。希望能够帮助到更多刚入门朋友少一点儿迷茫。 这个课程不是文档式的,也不是纯案例。而是在学习每个知识点后,提供个 Node.js 实战例子来稳固这些知识点,希望可以通过每一节精心安排的课程,让 Node.js 的初学者们可以循序渐进地,有目的地开展 Node.js 的学习,少一点儿迷茫。 配套源码:htt

  • 本文向大家介绍python+selenium+PhantomJS抓取网页动态加载内容,包括了python+selenium+PhantomJS抓取网页动态加载内容的使用技巧和注意事项,需要的朋友参考一下 环境搭建 准备工具:pyton3.5,selenium,phantomjs 我的电脑里面已经装好了python3.5 安装Selenium pip3 install selenium 安装Phan

  • 你好,我有麻烦试图刮数据从一个网站的建模目的(Fantsylabs dotcom)。我只是一个黑客,所以原谅我对comp sci行话的无知。我想完成的是... > 使用selenium登录网站,导航到有数据的页面。 这个过程的工作原理是登录,导航到正确的页面,但是一旦页面完成动态加载(30秒),就把它传递给美丽的汤。我在表中看到大约300个实例,我想刮......然而,bs4刮刀只吐出了300个实

  • 我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda

  • 问题内容: 我正在寻找一个示例,该示例请求一个网页,等待JavaScript呈现(JavaScript修改DOM),然后获取页面的HTML。 这应该是一个简单的示例,并且带有明显的PhantomJS用例。我找不到合适的示例,文档似乎全部关于命令行使用。 问题答案: 根据您的评论,我猜您有2个选择 尝试找到phantomjs节点模块-https: //github.com/amir20/phanto

  • 本文向大家介绍详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片,包括了详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片的使用技巧和注意事项,需要的朋友参考一下 利用Java抓取网页上的所有图片: 用两个正则表达式: 1、匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2、匹配img标签中得src中http路径的正则:http:\"?(.*?