当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

百度云分享爬虫

授权协议 GPL

开发语言 JavaScript HTML/CSS

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者陈文景

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

百度云分享爬虫项目

github上有好几个这样的开源项目，但是都只提供了爬虫部分，这个项目在爬虫的基础上还增加了保存数据，建立elasticsearch索引的模块，可以用在实际生产环境中，不过web模块还是需要自己开发

安装

安装node.js和pm2，node用来运行爬虫程序和索引程序，pm2用来管理node任务

安装mysql和mongodb，mysql用来保存爬虫数据，mongodb用来保存最终的百度云分享数据，这些数据是json格式的，用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare
cnpm i

推荐使用cnpm命令安装npm依赖，最简单的安装方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去npm.taobao.org上面找。

初始化

爬虫数据（主要是url列表）都是保存在mysql数据库的，yunshare使用sequelizejs做orm映射，源文件在src/models/index.js，默认的mysql用户名和密码都是root，数据看是yun，你需要手动创建yun数据库

create database yun default charset utf8

密码根据自己需要进行修改，完成mysql配置之后就可以运行下面的命令

gulp babel
node dist/init.js

注意必须先运行gulp babel把es6代码编译成es5，然后运行初始化脚本导入初始数据，数据文件在data/hot.json，里面，是从页面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下来的。

启动项目

yunshare使用pm2进行nodejs进程管理，运行pm2 start process.json启动所有的后台任务，检查任务是否正常运行可以用命令pm2 list，正常运行的应该有4个任务。

启动elasticsearch索引

elasticsearch索引程序也已经写好了，mapping文件在data/mapping.json，请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序，命令pm2 start dist/elastic.js。

默认的elasticsearch地址是http://localhost:9200，如果你需要修改这个地址，可以在src/ElasticWorker.js里面修改，修改任何js源码之后记得运行gulp babel，在重启pm2任务，不然修改是不会生效的。

在完成elasticsearch配置之后，你也可以在process.json里面添加一项elastic任务，这样就不需要单独启动索引程序了。

DEMO

网盘搜索

使用案例

百度网盘爬虫

实现这个只需三个步骤 1.我们需要知道网络上具有共享资源的百度网盘的 uk并把他们放入数据库中。我们可以从下面的地址中快速的获得 uk http://yun.baidu.com/pcloud/friend/getfanslist?query_uk=1327787586&limit=25&start=0 http://yun.baidu.com/pcloud/friend/gethotuserlis
爬虫系列之百度云爬虫

项目地址：GitHub - gudegg/yunSpider: 百度云网盘爬虫百度云爬虫安装使用安装go与设置gopath clone项目到gopath目录安装依赖 go get github.com/go-sql-driver/mysql go get github.com/siddontang/go/log go get github.com/garyburd/redigo/redis
实用的开源百度云分享爬虫项目yunshare - 安装篇

今天开源了一个百度云网盘爬虫项目，地址是https://github.com/callmelanmao/yunshare。百度云分享爬虫项目 github上有好几个这样的开源项目，但是都只提供了爬虫部分，这个项目在爬虫的基础上还增加了保存数据，建立elasticsearch索引的模块，可以用在实际生产环境中，不过web模块还是需要自己开发安装安装node.js和pm2，node用来运行爬虫程
Python爬虫实战：抓取并保存百度云资源（附代码）！

寻找并分析百度云的转存api 首先你得有一个百度云盘的账号，然后登录，用浏览器（这里用火狐浏览器做示范）打开一个分享链接。F12打开控制台进行抓包。手动进行转存操作：全选文件->保存到网盘->选择路径->确定。点击【确定】前建议先清空一下抓包记录，这样可以精确定位到转存的api，这就是我们中学时学到的【控制变量法】2333。可以看到上图中抓到了一个带有 “transfer” 单词的 post 请
百度云爬虫-爬取百度云/百度网盘所有的分享文件

baiduyun-spider 百度云爬虫-爬取百度云/百度网盘所有的分享文件运行环境 MySQL Python 2.7 Mysql-python 操作创建数据库创建名为pan的数据库，编码设为utf-8。然后导入sql/pan.sql，完成表的创建。设置连接数据库的账号密码打开 bin/spider.py ，修改 DB_HOST、DB_PORT、DB_USER、DB_PASS 运行爬虫
百度网盘资源抓取爬虫

【实例简介】简要实现了百度网盘资源的抓取，以及定时抓取，百度分享用户的抓取以及资源抓取，booststrap 页面【实例截图】【核心代码】 da0a5e77-e599-4f8f-829f-edbec174245e └── springTimer ├── src │ ├── com │ │ ├── baidu │ │ │ ├── data │ │ │ │
python爬取百度云网盘资源

1.[代码][Python]代码 import urllib import urllib.request import webbrowser import re def yunpan_search(key): keyword = key keyword = keyword.encode('utf-8') keyword = urllib.request.quote(keyword) url = "
java实现百度网盘爬虫

项目镇楼本文的项目都在此处哦工作嘛，就是不在需求中爆发，就在需求中灭亡。最近接了个奇怪的需求。要用java实现百度网盘（有提取码的）下载。。我估么着就是url和提取码太多他懒得自己一个一个下载emmmmmm反正有需求就得看着折腾。最开始寻思这种事情，可能目测得去官网查查SDK有木有。。。百度功能太多。。没看懂到底都是什么玩
python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情

在网上看到的教程，但是我嫌弃那个教程写的乱（虽然最后显示我也没高明多少，哈哈），就随手写了一个主要是嫌弃盘搜那些恶心的广告，这样直接下载下来，眼睛清爽多了。用pyinstall 打包成EXE文件，就可以安安静静的下载东西了。。。。 #refer:http://upvup.com/html/python/2015-12-13/21.html #!/usr/bin/python # -*- enc
python爬取百度云网盘资源-源码

今天测试用了一下python爬取百度云网盘资源. 代码片段 import urllib import urllib.request import webbrowser import re def yunpan_search(key): keyword = key keyword = keyword.encode('utf-8') keyword = urllib.req
python3网络爬虫开发实战pdf 崔庆才 百度网盘分享

python3网络爬虫开发实战pdf 崔庆才百度网盘分享介绍了如何利用Python 3开发网络爬虫，环境配置和基础知识，然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容，接着通过多个案例介绍了不同场景下如何实现数据爬取，最后介绍了pyspider框架、Scrapy框架和分布式爬虫链接：https:

百度云分享爬虫

百度云分享爬虫项目

安装

初始化

启动项目

启动elasticsearch索引

DEMO

同类工具

相关阅读

相关文章

相关问答

相关文档