Redshift即是AWS提供的一款:云上数据仓库服务
Redshift同我们前面使用的RDS一样,是一个全托管的服务(非完全的server less,可以选择集群数量和性能,但是无需管理)
Redshift同RDS一样,只需要鼠标点击几下,即可得到一款可用的高性能、高可靠的数据仓库服务。
但是与RDS不同的是,Redshift可以选择集群模式,也就是可以选择Redshift底层,基于多少台硬件服务器提供算力和存储。
同时,从概念上也不同,我们列个表格来看一下Redshift和RDS的区别
服务 | 规模 | 完全托管 | 使用场景 | 引擎 | 性能 | 备注 |
---|---|---|---|---|---|---|
RDS | 单机 | 是 | 关系型数据库场景 | Mysql、Postgresql、Oracle、SQLServer、Aurora、MariaDB | 标准关系型数据库性能 | Aurora引擎性能更强 |
Redshift | 集群 | 是 | 数据仓库 | 底层基于Postgresql构建 | PB级别吞吐量 | 性能取决集群规模 |
那么来看看Redshift有什么特点。
Amazon Redshift 使用了多种创新技术,对于大小在 100GB 到 1PB 或更高的数据集,可以实现很高的查询性能,并使用了列式存储。Amazon Redshift 采用了大规模并行处理 (MPP) 数据仓库架构,可以对 SQL 操作进行并行分布处理,以便利用所有可用资源。底层硬件支持高性能数据处理,使用本地连接的存储以便尽可能增大 CPU 与驱动器之间的吞吐量,同时使用 10GigE 网状网络以便尽可能增大节点之间的吞吐量。
仅需在 AWS 管理控制台中单击几下或通过一次简单的 API 调用,您就能在性能或容量需求发生变化时,轻松更改云数据仓库中的节点数量或类型。
通过密集存储 (DS) 节点,您能够以非常低的价格使用硬盘 (HDD) 创建超大型数据仓库。
通过密集计算 (DC) 节点,您可以使用高速 CPU、大量 RAM 和固态硬盘 (SSD) 创建超高性能数据仓库。
利用 Amazon Redshift,您只要用单个 160GB DC2.Large 节点就可开始,并能一路扩展到使用 16TB DS2.8XLarge 节点的 1PB 或更多压缩用户数据。
调整大小时,Amazon Redshift 可将您现有的集群置于只读模式,并预置一个您选定大小的新集群,然后将数据从您的旧集群并行复制到您的新集群。在预置新集群的同时,您可继续对您的旧集群运行查询。一旦您的数据被复制到新集群,Amazon Redshift 会自动将查询重新定向至新集群,并移除旧集群。
Amazon Redshift 处理数据仓库的管理、监控及扩展所需的所有工作,从监控集群运行状况、备份到进行修补和升级。
在性能和容量需求发生变化时,您可以轻松调整集群大小。通过处理所有这些耗时耗力的任务,Amazon Redshift 使您得到了解脱并专注于您的数据和业务。
Amazon Redshift 的自动快照功能连续地将集群上的数据备份至 Amazon S3。备份是连续、递增而自动的。
Amazon Redshift 按用户定义的期间存储您的快照,此期间可以是 1 到 35 天。您可在任何时候拍摄您自己的快照,这些快照利用所有现有的系统快照,并可保留到您明确地删除它们时为止。
Redshift 还能将您的快照异步复制到另一个区域的 S3 中进行灾难恢复。一旦您删除了某个集群,您的系统快照也将被移除,但您的用户快照在您明确地删除它们之前仍可使用。
您可通过 AWS 管理控制台或 Amazon Redshift API 使用任何系统快照或用户快照来恢复您的集群。
系统元数据恢复后,您的集群就可供使用,并且您可在用户数据在后台输出时开始运行查询。
Amazon Redshift 拥有多种能够提高数据仓库集群可靠性的功能。
所有写入集群内节点的数据均会自动复制到集群内的其他节点,且所有数据会被连续备份至 Amazon S3。Amazon Redshift 会持续监控集群的运行状况并会自动从出现故障的驱动器重新复制数据,并在必要时替换节点。
并且这一切完全无需用户管理,AWS为您管理一切,用户只需要关心业务开发即可。
借助 Amazon Redshift,您可以配置防火墙规则,以控制对数据仓库集群的网络访问。您可以在 Amazon Virtual Private Cloud (Amazon VPC) 中运行 Amazon Redshift,将您的数据仓库集群隔离在您自己的虚拟网络中。
Amazon Redshift 与 AWS CloudTrail 相集成,使您能够对所有的 Redshift API 调用进行审计。Amazon Redshift 还会记录所有的 SQL 操作,包括连接尝试、查询和数据库变动。您可以使用 SQL 查询在系统表格中访问这些记录,或选择将其下载到 Amazon S3 上的某个位置。
Amazon Redshift 是一种 SQL 数据仓库解决方案,使用了行业标准的 ODBC 和 JDBC 连接。可以从控制台的连接客户端
选项卡中下载我们的定制 JDBC 和 ODBC 驱动程序。
Amazon Redshift 与其他 AWS 服务相集成,并内置了命令将数据从 Amazon S3、Amazon DynamoDB 或 Amazon EC2 实例以及使用 SSH 的本地服务器中并行加载到每个节点。Amazon Kinesis 还集成了 Amazon Redshift 作为数据目标。