1.1 倒排索引原理 1.2 倒排索引构成 单词词典,记录所有文档的单词,记录单词到倒排列表之间的关联信息。 BTree,倒排索引项(Posting)。 文档 Id,用户获取原始信息 单词频率,记录该单词在该文档中出现的次数,用户后续相关性分析 位置,记录单词在文档中的分词位置,用于做词语检索。 偏移(Offset),记录单词在文档的开始和结束为止,用于高亮显示。 对每个属性建立倒排索引。 分词器
角色 功能 Queue 同一个Queue的生产者和消费者进行通信。
在没有 Yarn 的情况下,集群的资源无法在 MapReduce、Storm、Spark 等计算框架之间协调使用。有 Yarn 之后,集群上所有的资源以 Container 为单位, 交由 Yarn 统一管理。每个计算框架实现 ApplicationMaster 接口,便可向 Yarn 申请资源。 参考资料 Hadoop YARN配置参数剖析(1)—RM与NM相关参数 Hadoop YARN配置参
FastDFS是一个开源的轻量级分布式文件系统,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合中小文件(建议范围:4KB < file_size <500MB),对以文件为载体的在线服务,如相册网站、视频网站等。 2. 架构介绍 FastDFS由跟踪服务器(Tracker Server)、存储服务器(Storage Server)和客户端
1.1 Hadoop简介 2005年,Lucene 的创始人 Doug Cutting 主持开发完成了首款支持海量数据存储计算的分布式开源框架—Hadoop。Hadoop的初始定位是服务于大量的具有廉价硬件设备的服务器,且对存储的数据具有较高的容错性,随着 Hadoop功能的逐步完善,目前 Hadoop已经晋升为 Apache的顶级项目。Hadoop框架主要包括 Hadoop分布式文件系统(HDF
Redis 监控
1.2.2 Hbase 数据存储目录解析 目录 内容 .tmp 对表进行创建或删除操作时,将表放入 tmp 中。 WALs 操作日志。 archive 存储表的归档与快照,Hbase 在分割或合并操作时,将新生成 HFile 写入 archive 中,删除之前的 HFile 。 corrupt 损坏的日志文件。 data 存储系统表数据和用户表数据。 hbase.id 标识 hbase 进程。 h
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。 MongoDB支持各种编程语言,RUBY,PYTHO
Hawq 技术解析
Impala 性能调整(翻译)
Greenplum数据库软件是业内首创的大规模并行处理(massively parallel processing (MPP))的数据库软件产品,它包含大规模并行计算技术和数据库技术最新的研发成果:包括无共享/MPP,行列存储数据库,数据库内压缩,MapReduce,永不停机扩容,多级容错等等。该软件产品被业界认可为扩展能力最大的分析型(OLAP)数据库软件。已有100多家世界级重大客户采用该软件
Mysql主从分步与读写分离 LVS+Keepalived实现mysql的负载均衡 # 查看所有表 show tables # 查看表结构 desc <tablename> # 删除表 drop tables <tablename> # 创建表 create table user( id INT NOT NULL AUTO_INCREMENT, username VARCHAR(100
Postgresql调研 摘要 本文介绍了Postgresql的功能和集群构建方案,及集群读写分离、负载均衡和分库功能的实现方法。 1. 简介 PostgreSQL是一个功能强大的、可靠性高、能保证数据完整性和一致性对象的开源关系数据库系统。它可以运行在所有主流的操作系统上,包括Linux、UNIX(AIX, BSD, HP-UX, SGI IRIX, MACOS, Solaris, Tru64)
在当前我国制造业主要领域全面深入落实和努力探索实践《中国制造2025》行动纲领的关键时期,本书的出版对广大读者来说,可谓如遇甘霖,恰逢其时。作为本书作者的同行与好友,我很早就了解精益研发概念与体系的形成,并参与了相关内容的讨论与凝炼,也知道作者所在公司的同仁们一直在深入中国工业企业进行实践和验证。
面试流程:3-4人一组,面试官是各组首席和组内研究员。 首先每人自我介绍1分钟, 随后开始提问,每人轮流作答,并对个别同学的回答或简历内容进行追问。 面试题目 1.请推荐一只股票。 2.三句话概括一只股票的核心投资逻辑。 3.对某行业有什么认知? 4.是否独立撰写过研究报告? 5.讲一篇之前实习写过的报告核心逻辑,撰写一篇公司深度报告的框架是怎样的? 6.搭建DCF估值模型大致流程。 7.盈利预