当前位置: 首页 > 工具软件 > GridFS > 使用案例 >

MongoDB GridFS

戎高爽
2023-12-01

一、概述

GridFS是基于mongodb存储引擎是实现的“分布式文件系统”,底层基于mongodb存储机制,和其他本地文件系统相比,它具备大数据存储的多个优点。GridFS适合存储超过16MB的大型文件,不过16M数据在当今互联网时代,已经不足为奇。我们可以使用GridFS构建大规模的“图片服务器”、“文档服务器”、“视频、音频”文件服务器,GridFS对于web应用,可以结合nginx插件“ningx-gridfs”能够简单的实现负载均衡等特性,非常便捷;可以简单认为GridFS是为web应用而生。个人认为,目前架构比较简单的NoSQL文件系统中GridFS是最优秀的。

GridFS并不是将单个文件直接存储为一个document,而是将文件分成多个parts或者说chunks,然后将每个chunk作为作为一个单独的document存储,然后将chunks有序保存。默认情况下,GridFS的chunk大小位255k。GridFS使用2个collections来存储这些文件,一个collection存储文件的chunks(实际文件数据),另一个则存储文件的metadata(用户自定义的属性,filename,content-type等)。

当用户查询GridFS中的文件时,客户端或者driver将会重新按序组装这些chunks。用户可以range查询文件,也可以获取文件的任意部分的信息,比如:跳过(skip)视频或者音频(任何文件)的中间部,实现“range access of single file”。

对于mongodb而言,每个document最大尺寸为16M,如果想存储一条数据(比如一个文件)超过16M,那么只能使用GridFS支持;GridFS可以支持单个文件尺寸达到数G,读取文件时可以分段读取。此外,GridFS可以从Mongodb的高性能、高可用特性中获益,比如我们可以在“replica set”或者“sharding”架构模式下使用GridFS。

概述总结

1,GridFS是用于存储和检索超过16MB的BSON文档大小限制的文件的解决方案。

2,GridFS是MongoDB用来存储大型二进制文件的一种存储机制。

3,GridFS 不是讲文件存储在单个文档中,而是将文件分为块,并将每个块作为单独的文档存储,默认情况下,GridFS使用的块大小为256kb,最后一个块除外。

4, GridFS 使用两个集合存储文件,一个集合文件的块,另一个存储文件的原始数据。

二、GridFS 优缺点

优点

  • 能够简化技术栈,如果已经使用了MongoDB,那么使用GridFS,就不需要其它独立的存储工具了

  • GridFS会自动平衡已有的复制,或者为MongoDB设置的自动分片,所以对文件存
    储做故障转移或者是横向扩展会更容易 。

  • GridFS的功能不错,能自动解决一些其他文件系统遇到的问题,如在同一个目录下存储大量的文件

缺点

  • 性能较低,不如直接访问文件系统快。

  • 无法修改文档。如果要修改GridFS里面的文档,只能是先删除再添加

三、使用场景

在MongoDB中,使用GridFS存储大于16 MB的文件。

此外,如果文件均小于16 MB BSON文档大小限制,请考虑将每个文件存储在单个文档中,而不要使用GridFS。您可以使用BinData数据类型存储二进制数据。有关使用BinData的详细信息,请参见驱动程序文档。

对于一个大文件,如果你希望原子性的更新它的全部内容,那么GridFS将不适合;比如同时更新一个文件的多个chunk,因为mongodb本身没有事务机制。

document的大小超过16M是使用GridFS的条件之一,因为mongodb普通的collection无法支持16M以上的document,我们不得不选择其他方案;在一些情况下,将这些大文件存储在GridFS中,比直接存储在本地文件系统中更加适合:

  • 如果你的文件系统对每个目录下文件的个数有限制(或者太多,将会影响文件的打开速度等)。
  • 如果你的文件数据,有分数据中心镜像保存(大数据情况,可用性保证)。
  • 如果你希望访问一个超大的文件,而不希望将它全部加入内存,而是有“range access”的情况,即分段读取,那么GridFS天生就具备这种能力,你可以随意访问任意片段。

四、GridFS 基本原理

GridFS 会将大文件分割为多个块,将每个块作为独立的文档进行存储,
另外用一个文档来讲这些块组织到一起,并存储该文件的元信息。

  • GridFS中的块被存储到专用的集合中,默认是fs.chunks
  • GridFS中每个文件的元信息被存储到单独的集合中,默认是fs.files

fs.chunks

 db.fs.chunks.find();
 { 
 "_id" : ObjectId("598fc1c11194fce1dbcd57a5"), 
 "files_id" : ObjectId("598fc1c11194fce1dbcd57a4"), 
 "n" : 0.0, 
 "data" : BinData(0, "xxxx")
 }

  • files_id:块所属文件的元信息

  • n:块在文件中的相对位置

  • data:块所包含的二进制数据

fs.files

db.fs.files.find()
{ 
"_id" : ObjectId("598fc1c11194fce1dbcd57a4"), 
"chunkSize" : 261120.0, 
"uploadDate" : ISODate("2017-08-13T03:04:33.114+0000"), 
"length" : 2777.0, 
"md5" : "fd12ab0bd883a9530331f35c9e04006c", 
"filename" : "rsa3.txt"
}

  • _id:文件唯一的id,就是前面的files_id

  • length:文件包含的字节数

  • chunkSize:组成文件的每个快的大小,单位是字节,这个值默认是256k

  • uploadDate:文件被上传到GridFS的日期 5:md5:文件内容的md5校验值

 类似资料:

相关阅读

相关文章

相关问答