当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

百度云分享爬虫

授权协议 GPL
开发语言 JavaScript HTML/CSS
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 国产
投 递 者 陈文景
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发

安装

安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务

安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare
cnpm i

推荐使用cnpm命令安装npm依赖,最简单的安装方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去npm.taobao.org上面找。

初始化

爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库

create database yun default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

gulp babel
node dist/init.js

注意必须先运行gulp babel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.json,里面,是从页面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下来的。

启动项目

yunshare使用pm2进行nodejs进程管理,运行pm2 start process.json启动所有的后台任务,检查任务是否正常运行可以用命令pm2 list,正常运行的应该有4个任务。

启动elasticsearch索引

elasticsearch索引程序也已经写好了,mapping文件在data/mapping.json,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令pm2 start dist/elastic.js。

默认的elasticsearch地址是http://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js里面修改,修改任何js源码之后记得运行gulp babel,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。

DEMO

网盘搜索

  • 实现这个只需三个步骤 1.我们需要知道网络上具有共享资源的百度网盘的 uk并把他们放入数据库中。我们可以从下面的地址中快速的获得 uk http://yun.baidu.com/pcloud/friend/getfanslist?query_uk=1327787586&limit=25&start=0 http://yun.baidu.com/pcloud/friend/gethotuserlis

  • 项目地址:GitHub - gudegg/yunSpider: 百度云网盘爬虫 百度云爬虫 安装使用 安装go与设置gopath clone项目到gopath目录 安装依赖 go get github.com/go-sql-driver/mysql go get github.com/siddontang/go/log go get github.com/garyburd/redigo/redis

  • 今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare。 百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发 安装 安装node.js和pm2,node用来运行爬虫程

  • 寻找并分析百度云的转存api 首先你得有一个百度云盘的账号,然后登录,用浏览器(这里用火狐浏览器做示范)打开一个分享链接。F12打开控制台进行抓包。手动进行转存操作:全选文件->保存到网盘->选择路径->确定。点击【确定】前建议先清空一下抓包记录,这样可以精确定位到转存的api,这就是我们中学时学到的【控制变量法】2333。 可以看到上图中抓到了一个带有 “transfer” 单词的 post 请

  • baiduyun-spider 百度云爬虫-爬取百度云/百度网盘所有的分享文件 运行环境 MySQL Python 2.7 Mysql-python 操作 创建数据库 创建名为pan的数据库,编码设为utf-8。然后导入sql/pan.sql,完成表的创建。 设置连接数据库的账号密码 打开 bin/spider.py ,修改 DB_HOST、DB_PORT、DB_USER、DB_PASS 运行爬虫

  • 【实例简介】 简要实现了百度网盘资源的抓取,以及定时抓取,百度分享用户的抓取以及资源抓取,booststrap 页面 【实例截图】 【核心代码】 da0a5e77-e599-4f8f-829f-edbec174245e └── springTimer ├── src │   ├── com │   │   ├── baidu │   │   │   ├── data │   │   │   │  

  • 1.[代码][Python]代码 import urllib import urllib.request import webbrowser import re def yunpan_search(key): keyword = key keyword = keyword.encode('utf-8') keyword = urllib.request.quote(keyword) url = "

  •          项目镇楼本文的项目都在此处哦          工作嘛,就是不在需求中爆发,就在需求中灭亡。          最近接了个奇怪的需求。要用java实现百度网盘(有提取码的)下载。。我估么着就是url和提取码太多他懒得自己一个一个下载emmmmmm反正有需求就得看着折腾。         最开始寻思这种事情,可能目测得去官网查查SDK有木有。。。百度功能太多。。没看懂到底都是什么玩

  • 在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了。 用pyinstall 打包成EXE文件,就可以安安静静的下载东西了。。。。 #refer:http://upvup.com/html/python/2015-12-13/21.html #!/usr/bin/python # -*- enc

  • 今天测试用了一下python爬取百度云网盘资源. 代码片段 import urllib import urllib.request import webbrowser import re def yunpan_search(key): keyword = key keyword = keyword.encode('utf-8') keyword = urllib.req

  • python3网络爬虫开发实战pdf 崔庆才 百度网盘分享 介绍了如何利用Python 3开发网络爬虫,环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫 链接:https:

 相关资料
  • 本文向大家介绍Java结合百度云存储BCS代码分享,包括了Java结合百度云存储BCS代码分享的使用技巧和注意事项,需要的朋友参考一下 一、简介   云也不是一个新概念了,云到底是什么东西,你叫我说个明明白白的我也说不出来,姑且算作联网的就叫做云。国内的云服务商还是有很多了,主要有两大类,一类是类似于阿里云的类主机型的云提供商,比如万网等传统空间商转过来的;还有一类是应用应用托管平台,比如BAE,

  • 应聘岗位:PM(项目管理) 面试问题: 1.自我介绍 2.简单说说过往的实习经历 3.你认为你的实习或者项目经历那一块儿是最有成就感的? 4.你是怎么理解这个岗位的? 5.你认为你自己具备哪些能力比较匹配这个岗位? 5.期望的薪资是? 6.住在哪?过来需要多久 7.你认为你在生活中是怎样的人? 8.你喜欢什么样的团队氛围? 9.反问:主要是问了管理风格、团队氛围,以及后续的面试回馈时间

  • 本文向大家介绍自定义百度分享的分享按钮,包括了自定义百度分享的分享按钮的使用技巧和注意事项,需要的朋友参考一下 代码很简单,主要是修改了下百度分享的部分代码,小伙伴们自己对比下。 以上就是本文的全部内容了,希望大家能够喜欢

  • 本文向大家介绍零基础写python爬虫之抓取百度贴吧代码分享,包括了零基础写python爬虫之抓取百度贴吧代码分享的使用技巧和注意事项,需要的朋友参考一下 这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! 以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

  • 本文向大家介绍python爬虫入门教程之糗百图片爬虫代码分享,包括了python爬虫入门教程之糗百图片爬虫代码分享的使用技巧和注意事项,需要的朋友参考一下 学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。 用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作

  • 1、请介绍一下你自己 在面试前用人单位大多都看过了毕业生的自荐材料,一些基本情况都有所了解,所以在自我介绍时要简洁,突出你应聘该公司的动机和具备什么样的素质可以满足对方的要求。 2、你有什么优缺点 充分介绍你的优点,但最好少用形容词,而用能够反映你的优点的事实说话。介绍缺点时可以从大学生普遍存在的弱点方面介绍,例如缺少社会经验。但如果有不可隐瞒的缺陷,也不应该回避,比如曾经受过处分,应如实介绍,同