当前位置：首页 > 软件库 > Web应用开发 > Web框架 >

weixin-spider

授权协议 Readme

开发语言 Python

所属分类 Web应用开发、 Web框架

软件类型开源软件

地区不详

投递者酆意智

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

weixin-spider

 __        __       _    _      _      ____  ___       __       __  
 \ \      / /__  || \\  // ||  //\    //   \|   | ||   ||  __ //  \\
  \ \ /\ / / _ \ ||  \\//  || // \\  //\___ | __/ || __||/ _ \||__//     
   \ V  V /  __/ ||  //\\  ||//   \\//     \|     ||/  ||  __/|| \\
    \_/\_/ \___/ || //  \\ ||/     \/  \___/|     ||\__//\___/||  \\

高效微信爬虫，微信公众号爬虫，公众号历史文章，文章评论，文章阅读及在看数据更新，可视化web页面，可部署于Windows服务器。

使用环境

基于Python3 ==> flask/mysql/redis/mitmproxy/pywin32等实现

查看及安装依赖文件 requirements.txt
    pip install -r requirements.txt

支持操作系统：Windows10 x64
必备软件：WeChat 微信PC版（非微信网页版）

开发环境：Python3.7（Python3.5+）+ DB(MySQL、redis)

2020-10-12 更新

移步☞ https://github.com/xzkzdx/weixin-spider/releases/tag/static%26templates 下载必要文件。

解压缩到webapp/目录下，提取目标文件webapp/static/及webapp/templates/

创建数据库模型的方式：python create_model.py

2019-08-22 更新

1、修改webapp/models.py中Comment类下content = db.Column(db.String(800))以修复评论中出现长内容的评论

2、新增三个.sh运行脚本 (在使用前请务必阅读完下方 "准备工作" 部分，以免脚本无法正常运转)

使用步骤：

1、运行脚本前请务必登录微信PC版并双击打开 “文件传输助手” 或 settings.py中指定的对话框（例如打开和自己对话的对话框）。

2、双击执行脚本startweb.sh启动web服务，前提是所需依赖正确安装及数据库(库、表、字段)正确并开启redis服务。

3、双击执行脚本startproxy.sh启动本地系统代理为程序正常运行提供环境，前提正确安装mitmproxy库，可编辑脚本更改端口。

4、请务必在设置 ==> 网络 ==> 代理 ==> 手动设置代理中打开使用代理并将IP地址修改为127.0.0.1 端口修改为默认8080或修改后的端口。

5、双击执行脚本startmonitor.sh启动爬虫。

准备工作

确定使用环境安装完毕的情况下开始这一步，IDE建议使用PyCharm

将使用到默认端口：5000 8080 请确保端口不冲突，或者您可以修改端口

1、确定mysql 、redis服务开启状态

# 创建mysql数据库 weixin_spider  字符集utf8mb4
# 查看表结构是否生成正确

2、确认webapp/目录下存在目标文件static/及templates/

3、使用不太重要的微信小号登录微信PC版（使用自己常用的账号登录也没有问题，为你考虑，万一被禁怎么办）。

# 登录微信PC版后，找到 文件传输助手 对话框， 双击 文件传输助手 ，文件传输助手会自动弹出单独的对话窗口来，此时及之后就不要关闭了

4、依次运行py脚本(亦可运行.sh文件代替)

运行 wx_monitor.py

# 运行 manage.py 打开网页 http://127.0.0.1:5000/   
# flask默认开启端口 5000 可自行修改端口， 默认开启debug

# 成功开启web界面后执行以下

# 在当前tools目录内打开cmd窗口（或cmd切换到tools文件目录内）
# 执行 mitmdump -s ./addons.py 开启miltmproxy代理 默认端口 8080
# 出现以下两行，及成功开启，否则核对错误。 当前cmd下ctrl + c可退出mitmproxy代理
# Loading script ./addons.py
# Proxy server listening at http://*:8080

# 打开系统设置，找到网络里的代理，开启使用代理服务器 地址：127.0.0.1 端口：8080 保存

5、完成以上无误后，网页端输入公众号文章链接进行添加公众号，启动或暂停用来控制你的公众号任务

注：

对于项目跑不起来及模块加载有问题或模块不存在的情况，建议使用PyCharm启动项目并运行相关脚本

如果发现公众号只爬取部分，请核对使用的微信号是否关注了该公众号，在关注的前提下使用

建议先通过文章链接加载需要爬取的公众号列表，再按需启动，以免IP限制访问详情导致导入公众号失败

部署到Windows服务器

按照以上步骤在服务器上安装必要软件及环境后，在项目下依次运行以上步骤，运行成功后即可通过ip或域名进行网页访问

关于更新

整体步骤将不会太大改变，关于音频及视频显示将在后续更新，对于部分单独发布的图片、音频、视频、分享链接的获取也将在后续更新

在tools模块，有部分没有用上，但也实用的功能，可自行按需扩展

想要了解更多对于pywin32操作微信PC版的功能，可访问： https://github.com/xzkzdx/WeChatPC

部分功能将在后续完善

使用案例

font-spider-plus，字体压缩插件使用笔记

font-spider-plus使用笔记， fsp是一个腾讯的大佬改版后的font-soider 主要思路是采集线上网页使用到的字体，从字体文件中分离出来，完成大幅度压缩， 1，npm i font-spider-plus -g 2，css中定义好font-face （ttf需要存在），其他配好可自动生成，不配则不会，有个坑，如果是webpack打包的stylus，sass等，配上不存
字蛛font-spider报错,,碰到的最新问题及解决方法

@media的问题没碰到,但是我的却一直报错. 后来把样式表里的文件全部删除,居然好用了. 然后逐类删除,逐行删除,发现问题在 .clearfix:after{content: "\20";display: block;visibility: hidden;clear: both;font-size: 0;height: 0;line-height: 0;} .clearfix{*zoom: 1;
font-spider的webpack插件来了，且更适配于SPA项目

背景为了丰富页面的文案效果或者为了统一不同客户端设备预置字体包不同导致的客户看到的文案效果不一样。前端开发工程师会使用自定义字体系列@font-face来解决问题。自定义字体系列的问题自定义字体系列到目前为止使用起来都不是尽善尽美的，我们按照时间来阐述各个阶段的问题。第一阶段问题：通常一个全量字体包的体积是十份大的，以思源黑体举例，只ttf文件格式的所有权重字体(regular、bol
爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)

爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)，这之间的斗争恢宏壮阔... Day 1 小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现某个时间段请求量陡增，分析日志发现都是 IP(1.1.1.1)这个用户，并且 user
（字蛛） gulp-font-spider 压缩中文字体遇到的坑

1、安装插件的时候npm要低于5.0版本，否则装不上 2、安装Python的2.X系列版本来兼容插件 3、压缩字体的时候不要有英文和空格 4、自定义字体名称的时候不要和系统或者已有的字体名称有命名冲突转载于:https://www.cnblogs.com/yanliangnh/p/7373584.html
font-spider 安装及使用

需要安装node.js npm install font-spider -g 安装字蛛可能会报很多错检查是否安装完成 font-spider --version 打包： doc命令进入目录所在位置然后font-spider *.html或者font-spider 文件所在目录下的*.html 注：引入文件因为ttf 类似otf会找不到文件转载于:https://www.cnb
node 字体压缩插件 font-spider

需求：根据甲方要求，使用UI中指定字体移动端默认显示系统默认字体，非系统默认字体需要自行引入字体包字体包过大，字体包通常在几MB，严重拖累页面加载速度分析：文本内容为固定内容，不需要更新文本内容大多为常用文字，大多文字用不上插件： font-spider node 安装插件方法：npm install font-spider -g 操作：安装插件提取项目文字：创建一个临时ht
[Ubuntu] 如何在 Lubuntu 安装 python-spidermonkey

SpiderMonkey 是由 Mozilla 开发的 Javascript 引擎，它由 C/C++ 编写而成。Mozilla 在其多个产品中使用了该引擎，包括 Firefox 浏览器。 python-spidermonkey 让 Python 程序员可以使用 Python 语法来读写 Javascript 代码。要安装 python-spidermonkey 首先需要安装 SpiderMonk
如何在Windows上安装python-SpiderMonkey的

展开全部从这个包的e5a48de588b63231313335323631343130323136353331333365653933安装脚本来看setup.py,好像是不支持的:# Debug builds are useful for finding errors in # the request counting semantics for Spidermonkey if DEBUG: c

weixin-spider

weixin-spider

使用环境

2020-10-12 更新

2019-08-22 更新

使用步骤：

准备工作

部署到Windows服务器

关于更新

同类工具

相关阅读

相关文章

相关问答

相关文档