当前位置: 首页 > 软件库 > Web应用开发 > J2EE框架 >

zhihu-spider

Spring Boot 项目框架
授权协议 Apache-2.0
开发语言 Java
所属分类 Web应用开发、 J2EE框架
软件类型 开源软件
地区 国产
投 递 者 井通
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

项目背景

从一开始是想编写一个单纯的知乎爬虫,并实现其持久化,并由此展开周期性爬取知乎问题及答案以及其用户资料信息,完善前后端分离归档分类,信息检索等项目模块。但是在实现过程中,我逐渐发现自己对信息爬取的技能知识掌握严重不足,萌发了搭建知乎信息中转持久化的数据流平台,并提供HTML+JSON和RabbitMQ等消息接口,从而使有兴趣的伙伴开发并使用其熟悉的语言环境,实现信息爬取,从而持久化到此项目中来,完成最开始的开发目标。

项目的基础理论

1. 面向数据流的项目开发。将我需要什么数据,转换为我能提供什么功能让你帮我提供什么样的数据。实现从信息获取,信息持久,信息展示,信息检索的整体的数据流功能程序开发。

2. 面向接口的项目开发。采用HTML+JSON和RabbitMQ的消息接口,从而让异构系统可轻松调用,爬虫的客户端、服务器端、信息展示的前端可实现完美解耦,职责清晰,并行开发。

  • zhihu-spider之Lombok——zhihu-spider开源项目使用技术详解(其一) 1.Lombok简介   Lombok是一个可以通过简单的注解形式来帮助我们简化消除一些必须有但显得很臃肿的Java代码的工具,通过使用对应的注解,可以在编译源码的时候生成对应的方法。   官方地址:https://projectlombok.org/   github地址:https://github

  • zhihu-spider之Mybatis——zhihu-spider开源项目使用技术详解(其四) 1.Mybatis简介   MyBatis起源于apache的一个开源项目iBatis。iBATIS一词来源于“internet”和“abatis”的组合,是一个基于Java的持久层框架。   MyBatis是一个支持普通SQL查询,存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的J

  • 1.项目背景 从一开始是想编写一个单纯的知乎爬虫,并实现其持久化,并由此展开周期性爬取知乎问题及答案以及其用户资料信息,完善前后端分离归档分类,信息检索等项目模块。但是在实现过程中,我逐渐发现自己对信息爬取的技能知识掌握严重不足,萌发了搭建知乎信息中转持久化的数据流平台,并提供HTML+JSON和RabbitMQ等消息接口,从而使有兴趣的伙伴开发并使用其熟悉的语言环境,实现信息爬取,从而持久化到此

  • zhihu-spider之RabbitMQ——zhihu-spider开源项目使用技术详解(其五) 1.RabbitMQ简介   RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现。AMQP 的出现其实也是应了广大人民群众的需求,虽然在同步消息通讯的世界里有很多公开标准(如 COBAR的 IIOP ,或者是 SOAP 等),但是在异步消息

  • zhihu-spider之Feign——zhihu-spider开源项目使用技术详解(其六) 1.Feign简介   Feign是一个声明式的Web服务客户端这使得Web服务客户端的写入更加方便 要使用Feign创建一个界面并对其进行注释。它具有可插入注释支持,包括Feign注释和JAX-RS注释。Feign还支持可插拔编码器和解码器。Spring Cloud增加了对Spring MVC注释的支持

  • 转自:http://blog.csdn.net/sun1021873926/article/details/75576786 zhihu-spider之Lombok——zhihu-spider开源项目使用技术详解(其一)http://blog.csdn.net/sun1021873926/article/details/73354634 zhihu-spider之Swagger——zhihu-sp

  • 作者:申玉宝 链接:https://www.zhihu.com/question/28168585/answer/74840535 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1 小莫想要某站上所有的电影,写了标准的爬虫(基

  • 作者:申玉宝 链接:https://www.zhihu.com/question/28168585/answer/74840535 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Day 1 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。 这个站点的运维小黎发现某

 相关资料
  • VSCode-Zhihu 是基于 VSCode 的知乎客户端,提供包括阅读,搜索,创作,发布等一站式服务,内容加载速度比 Web 端更快,创新的 Markdown-Latex 混合语法让内容创作者更方便地插入代码块和数学公式,并一键发布至知乎平台。

  • zhihu-py3 本质上是个爬虫,但是为了表现的像个API,所以没有加上多线程等特性,不太适合大量数据抓取,勉强可用于客户端开发。运行在python3.x环境下,不支持py2。 功能: 登录知乎 获取问题相关数据 获取答案相关数据 获取用户相关数据 获取话题相关数据 获取收藏夹相关数据 获取专栏相关数据 获取专栏文章相关数据 执行用户动作(点赞,关注,感谢等) 安装: 已将项目发布到pypi,请

  • 知乎专栏APP是一款基于Android平台的知乎专栏APP,项目中已经包含了知乎专栏API分析和实例项目,希望能对大家有所帮助。

  • 简介 最近在尝试解析出知乎官方未开放的 OAuth2 接口,顺便提供优雅的使用方式,作为 zhihu-py3 项目的继任者。 恩,理论上来说也会比 zhihu-py3 更加稳定,原因如下: 知乎 API 相比前端 HTML 来说肯定更加稳定和规范 这次的代码更加规范 网络请求统一放在基类中 属性解析统一放在装饰器中,各知乎类只用于声明有哪些属性可供使用 统一翻页逻辑,再也不用一个地方一个逻辑了 翻

  • 基于Node.js的知乎API。提供简单干净的数据接口,从而方便构建数据爬虫做进一步的数据分析。

  • 12.1 快速启动 12.2 框架设计 12.3 分层操作 12.4 数据库设计 12.5 路由设计 12.6 webpack2环境搭建 12.7 使用react.js 12.8 登录注册功能实现 12.9 session登录态判断处理