Tbase 源码（一）

慕和惬

2023-12-01

TBase 是基于Postgres-XL 开源项目，演进优化发展而来的企业级分布式并行计算开源数据库。

TBase is an advanced enterprise-level database management system based on prior work of Postgres-XL project. It supports an extended subset of the SQL standard, including transactions, foreign keys, user-defined types and functions. Additional, it adds parallel computing, security, management, audit and other functions.

Postgres-XL 10R1.1 版本发布后(2019-02-18)，后续停止新版本发布。

Postgres-XL官方网站 Postgres-XL | Open Source Scalable SQL Database Cluster

Postgres-XL 10R1.1 now available! Click here to download the source tarball. (2019-02-18)

TBase是一个提供写可靠性，多主节点数据同步的关系数据库集群平台。你可以将TBase配置一台或者多台主机上，TBase数据存储在多台物理主机上面。数据表的存储有两种方式，分别是distributed或者replicated ，当向TBase发送查询 SQL时，TBase会自动向数据节点发出查询语句并获取最终结果。

TBase采用分布式集群架构，该架构分布式为无共享(share nothing)模式，节点之间相应独立，各自处理自己的数据，处理后的结果可能向上层汇总或在节点间流转，各处理单元之间通过网络协议进行通信，并行处理和扩展能力更好，这也意味着只需要简单的x86服务器就可以部署TBase数据库集群。

解读一下TBase的三大模块

Coordinator：协调节点（简称CN）

业务访问入口，负责数据的分发和查询规划，多个节点位置对等，每个节点都提供相同的数据库视图；在功能上CN上只存储系统的全局元数据，并不存储实际的业务数据。
Datanode：数据节点（简称DN）

每个节点还存储业务数据的分片在功能上，DN节点负责完成执行协调节点分发的执行请求。
GTM:全局事务管理器(Global Transaction Manager)

负责管理集群事务信息，同时管理集群的全局对象，比如序列等。

Q:支持行列混合存储吗？

A：开发的V3版本是支持的，目前开源的V2版本是只支持行存。

Q：扩容后老数据如何清理？

A：我们现在扩容的老数据更多的是通过delete+vacuum的方式做数据的清理，因此老数据清理会对业务造成一些影响。后面会有一些更好的方式来做，比如说做一些数据聚簇的方案，来优化扩容的搬迁和扩容的数据清理对系统的一些影响。

Q :索引膨胀如何解决？

A：若你更新数据或者数据搬迁确实会有索引膨胀，我们建议是重建索引。因为索引重建是可以并行来做的，对业务其实是没有太大的影响，索引建好后把老的索引删掉就OK了。

++++++++++++++++++++++++++++++++++++++++++++

===Tbase === 源码【语义分析】部分沿用了PostgreSQL的源码。

【查询重写】部分依然沿用PostgreSQL的源码\src\backend\tcop\Postgres.c,入口函数是:pg_rewrite_query 。

【查询优化——预处理】查询优化模块的入口函数是pg_plan_queries函数 \src\backend\tcop\Postgres.c，它负责将查询树链表变成执行计划链表。

Utility commands 不需要执行计划

/* Utility commands require no planning. */

  CMD_UTILITY,                /* cmds like create, destroy, copy, vacuum,
                                 * etc. */

非 Utility commands，

//调用优化器 planner函数

plan = planner(querytree, cursorOptions, boundParams);

/*
 * Generate a plan for a single already-rewritten query.
 * This is a thin wrapper around planner() and takes the same parameters.
 */
PlannedStmt *
pg_plan_query(Query *querytree, int cursorOptions, ParamListInfo boundParams)

/* call the optimizer */
    plan = planner(querytree, cursorOptions, boundParams);