我大约可以多少钱。通过使用DVC减少磁盘容量？

颜骁

2023-03-14

问题内容：

我想对〜1m +个文档进行分类，并为相应模型的输入和输出提供一个版本控制系统。

数据随时间变化：

样本量随时间增加
新功能可能会出现
匿名程序可能会随着时间而改变

因此，基本上“一切”都可能发生变化：观测值，特征和值。我们感兴趣的是使ml模型构建在不使用10/100 +
GB磁盘卷的情况下可重现，因为我们保存了输入数据的所有更新版本。目前，数据量约为700mb。

我发现的最有前途的工具是：https :
//github.com/iterative/dvc。当前，数据存储在数据库中，并从那里加载到R
/ Python中。

问题：

使用dvc可以节省多少磁盘空间（非常大）？

如果可以粗略地估计这一点。我试图找出是否仅保存数据的“差异”。通过阅读以下内容，我没有发现太多信息：https : //github.com/iterative/dvc#how-dvc-
works或其他文档。

我知道这是一个非常模糊的问题。而且它将高度依赖于数据集。但是，我仍然会对获得一个非常近似的想法感兴趣。

问题答案：

让我尝试总结一下DVC如何存储数据，希望您能从中得出在您的特定情况下将节省/消耗多少空间的信息。

DVC在单个 文件级别 上存储和删除重复数据。因此，从实际的角度来看，这通常意味着什么。

我将用dvc add作为一个例子，但同样的逻辑也适用于保存数据文件或目录到DVC缓存中的所有命令- dvc add，dvc run等等。

方案1：修改文件

假设我有一个1GB的XML文件。我开始使用DVC进行跟踪：

$ dvc add data.xml

在现代的文件系统（或者hardlinks，symlinks启用，看到此命令，我们仍然消耗1GB（即使文件被移动到DVC缓存中，仍然存在于工作区）后有详细介绍）。

现在，让我们对其进行一些更改并再次保存：

$ echo "<test/>" >> data.xml
$ dvc add data.xml

在这种情况下，我们将消耗2GB。 DVC不会在同一文件的两个版本之间进行区分 ，也不会将文件拆分为大块或块以了解仅一小部分数据已更改。

确切地说，它计算md5每个文件并将其保存在内容可寻址键值存储中。md5文件中的一个用作键（高速缓存中文件的路径），值是文件本身：
(.env) [ivan@ivan ~/Projects/test]$ md5 data.xml
0c12dce03223117e423606e92650192c

(.env) [ivan@ivan ~/Projects/test]$ tree .dvc/cache
.dvc/cache

我大约可以多少钱。通过使用DVC减少磁盘容量？

方案1：修改文件

相关阅读

相关文章

相关问答

相关工具

相关文档