当前位置: 首页 > 面试题库 >

大数据时代对数据存储有哪些新的要求?

白子昂
2023-05-16

存储选型的考虑要素

存储选型的目的还是为了我们的使用场景和用户服务,因此在选型前需要回答自己一些 业务指标 & 技术指标 方面的问题,以便于我们清楚存储选型的应用环境。

用户量:用户量预估多少?几百几万还是几亿?

数据量:数据量预估多少?日均增量能有多少?

读写偏好:数据是读多一些还是写多一些?

数据场景:强事务型还是分析型需求?

运行性能要求:并发量是多少?高峰、平均、低谷分别预估是多少?

大数据时代对数据存储有哪些要求?

大数据对当前数据存储、访问以及管理均带来了前所有的挑战。下面,我们来详细介绍一下大数据时代对数据存储的挑战。

1.高并发读写需求

对于实时性、动态性要求较高的的社交网站,如论坛、微博等,往往需要并发度达到每秒上万次的读写请求,这种很高的并发性对数据库的并发负载相当大,传统关系数据库在面对海量数据的存储和操作时会存在严重的磁盘I/O瓶颈。

2.高效率存储和访问需求

动态交互网站Web2.0每天产生的数据量是巨大的,如果采用传统的关系数据库将海量数据存放到具有固定结构的二维表格中,不管是查询还是更新操作,效率都是非常低的。

3.高扩展性

关系数据库很难实现水平扩展,当数据量和访问量多到需要增加硬件和服务器结点来扩大容量和负载量时,关系数据库往往需要停机维护和数据迁移,这对一个需要24小时不停服务的网站是非常不可取的。

大数据要求数据管理系统既能实现海量数据存储,又能高效率地并发读写,同时必须支持扩展性。NoSQL数据库作为传统关系数据库的补充,弥补了传统关系数据库在这些方面的不足,满足了海量数据的存储、访问和管理。

1680761306822_大数据时代.png

 类似资料:
  • 在Spring Data JPA的“入门”示例中,我们创建了一个扩展CrudRepository的接口。但是,它只处理一个实体: 在现实世界的应用程序中,有许多实体(表),我们需要对它们进行CRUD操作。使用具有多个(相关或无关)实体的Spring数据JPA存储库的正确方法是什么? 我是否必须为每个实体创建接口并逐个自动连接它们(现在听起来这是一个非常疯狂的想法)?

  • 主要内容:1.大数据生态技术,2.数据存储,3.数据存储的发展,4.数据存储的方式1.大数据生态技术 数据存储处理: 清洗, 关联, 规范化, 组织建模, 通过数据质量的检测, 数据分析然后提供相应的数据服务 离线数仓: 实时数仓: 以Kafka, cancal/Maxwell/FlinkCdc为区分, 离线数仓为Hive, Sqoop 实时数仓:分层: Ods, Dwd, Dim, Dwm, Dws, Ads 离线数仓分层: Ods. Dwd, Dws, Dwt, Ads 实

  • 问题内容: 因此,我有了这种elasticsearch安装,可以在用logstash插入数​​据时使用kibana可视化它们。 conf文件中的所有内容均已注释,因此它使用的是相对于elasticsearch文件夹的默认文件夹。 这怎么可能? 但是,此命令将删除数据: 谢谢。 ps:忘了说我在窗户上 问题答案: 如果您在Linux上安装了ES,则默认数据文件夹位于(CentOS)或(Ubuntu)

  • 我将redis用于发布/订阅以及服务器端缓存。我的意思是,我的应用服务器将redis服务器作为一个进程运行(也可以作为缓存)。我有几个瘦客户端(运行redis client)以发布/订阅模式连接到此应用服务器。我想知道redis在哪里存储缓存数据?单独在服务器中,或者在客户端中也会有一个副本。如果有近100个Redis客户端通过发布/订阅通道连接到服务器,那么以这种方式使用Redis也是一个好主意

  • 本文向大家介绍hive有哪些方式保存元数据,各有哪些特点?相关面试题,主要包含被问及hive有哪些方式保存元数据,各有哪些特点?时的应答技巧和注意事项,需要的朋友参考一下 1.内嵌Derby数据库存储 --这个是hive默认自带的内嵌数据库,用来储存元数据,但这个在配置了hiveserver2和metastore服务后,不支持多个用户同时登录,不方便对数据库的安全访问 2.multi user m

  • 本文向大家介绍hive 有哪些方式保存元数据,各有哪些特点?相关面试题,主要包含被问及hive 有哪些方式保存元数据,各有哪些特点?时的应答技巧和注意事项,需要的朋友参考一下 解答: 1、内存数据库derby,安装小,但是数据存在内存,不稳定 2、mysql数据库,数据存储模式可以自己设置,持久化好,查看方便。

  • DBMS(数据库管理系统)主要通过数据的保存格式进行分类,现阶段主要分为以下几种类型。 层次数据库(Hierarchical Database,HDB) 层次数据库是最早研制成功的数据库系统,它把数据通过层次结构(树形结构)的方式表现出来。层次数据库曾经是数据库的主流,但随着关系数据库的出现和普及,现在已经很少使用了。 比较具有代表性的层次数据库是 IMS(Information Manageme

  • 它是否将其存储在缓存中?我有一个应用程序,但应用程序中没有任何地方。属性是提到的db详细信息。我可以通过邮递员存储数据和查询它。