本文主要介绍执行该爬虫所需的环境搭建,其他不多赘述。
环境搭建分以下3步,python3运行环境搭建、本地浏览器驱动安装、爬虫依赖包安装。
一、Python3运行环境搭建
Mac系统安装Python推荐使用Homebrew安装,即先安装homebrew,再使用brew命令安装Python。
复制下面的命令,粘贴到Mac的终端命令行执行,安装需要等待一段时间
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)"
brew install python@3.7
二、本地Chome驱动安装
GNE 的输入是经过 js 渲染以后的 HTML 代码,所以 GNE 需要配合 Selenium 使用,使用Selenium需要先安装浏览器驱动ChromeDriver。
安装过程这篇博客写的比较详细,新手参考其中方法一安装即可。
[https://blog.csdn.net/weixin_43931159/article/details/86078075](https://blog.csdn.net/weixin_43931159/article/details/86078075)
注意其中可能会踩的坑:
1、安装的驱动一定要对应自己的Chome浏览器版本,否则可能脚本无法打开浏览器
2、驱动的安装位置记住,安装位置的绝对路径即爬虫脚本中实例化webdriver对象时传入的参数值 driver = webdriver.Chrome("/usr/bin/chromedriver")
3、拖动驱动安装到/usr/bin/目录下时可能会被MacOS的系统安全策略拦截,此时根据报错信息百度,网上有很多文章供参考解决。基本都是恢复模式重启mac,命令行输入命令解除限制,再重启电脑即可。
三、爬虫依赖包安装
所需的依赖包有两个,selenium和gne,新手可以直接在Pycharm中先选中步骤一安装的Python作为项目解释器,然后装这两个依赖包。
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020081821061824.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L211c2tqcA==,size_16,color_FFFFFF,t_70#pic_center)
> 写在文章最后,为什么选gne这个工具。GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到 100%的准确率