Infobright是一个与MySQL集成的开源数据仓库(Data Warehouse)软件,可作为MySQL的一个存储引擎来使用,SELECT查询与普通MySQL无区别。
基本特征
优点:
1. 查询性能高:百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MySQL存储引擎快5~60倍
2. 存储数据量大:TB级数据大小,几十亿条记录
3. 高压缩比:在我们的项目中为18:1,极大地节省了数据存储空间
4. 基于列存储:无需建索引,无需分区
5. 适合复杂的分析性SQL查询:SUM, COUNT, AVG, GROUP BY
限制:
1. 不支持数据更新
2. 社区版Infobright只能使用“LOAD DATA INFILE”的方式导入数据,不支持INSERT、UPDATE、DELETE
3. 不支持高并发:只能支持10多个并发查询
测试
测试数据是一个1.5GB大的文本数据,数据格式类似:
用户ID 内容ID 用户打分
765331 3868 5
716091 3868 3
1663216 3868 3
51971 3868 5
在测试数据库中新建两张表,一个为Infobright支持的brighthouse存储引擎,一个为MySQL原生的MyISAM存储引擎,其他内容一致:
CREATE TABLE `t_ib` (
`uid` mediumint(9) NOT NULL,
`cid` smallint(6) NOT NULL,
`rating` tinyint(4) NOT NULL
) ENGINE=BRIGHTHOUSE;
CREATE TABLE `t_mis` (
`uid` mediumint(9) NOT NULL,
`cid` smallint(6) NOT NULL,
`rating` tinyint(4) NOT NULL
) ENGINE=MyISAM
将数据load进表:
load data infile ‘path/to/data.txt’ into table table_name fields terminated by “\t”;
我们比较一下文件大小:
数据类型 数据大小
data.txt 1.5GB
data.tar.gz 429MB
MyISAM表 671MB
Infobight表 280MB
超过5:1的压缩比,虽然没有传说中10:1,但数据的大小比tar.gz过还要小近一半,压缩能力可见一斑。
准备进行SQL的测试,不能在BRIGHTHOUSE存储引擎上建索引,因为根本就不需要建,我们在MyISAM引擎表上建立如下索引:
create index id on t_mis(cid);
执行下列SQL语句,查询内容ID大于9527的条目数(为了节省篇幅,略去结果集,只返回执行时间):
mysql> select count(*) from t_mis where cid > 9527;
1 row in set (41.81 sec)
mysql> select count(*) from t_ib where cid > 9527;
1 row in set (13.66 sec)
Infobright花费的时间只有MyISAM的1/4左右,再测试一下找出被用户打分最多的10条内容:
mysql> select cid from t_mis group by cid order by count(*) desc limit 10;
10 rows in set (1 min 21.30 sec)
mysql> select cid from t_ib group by cid order by count(*) desc limit 10;
10 rows in set (39.02 sec)
Infobright大概只花费了MyISAM 1/3多一点的时间。再查询一下评价最好的10条内容:
mysql> select cid from t_mis group by cid order by avg(rating) desc limit 10;
10 rows in set (6 min 16.15 sec)
mysql> select cid from t_ib group by cid order by avg(rating) desc limit 10;
10 rows in set (1 min 1.25 sec)
不到1/6时间。
http://neoremind.net/2012/03/mysql%E7%9A%84infobright%E5%BC%95%E6%93%8E%E4%BB%8B%E7%BB%8D/