我在blob存储中连续接收数据。我最初在blob存储中有5个blob文件,我可以使用Databricks将其从blob加载到Azure SQL DB,并使用Data factory将其自动化,但问题是当较新的文件进入blob存储时,Databricks会将这些文件与较旧的文件一起加载,并将其发送到Azure SQLDB。我不想要这些旧文件,每次我只想要更新的文件,这样就不会在Azure SQL DB中一次又一次地加载相同的数据。
最简单的方法是简单地将您刚刚读取的文件存档到一个新文件夹中,名称为ArchiveFolder
。假设,您的数据库正在从以下目录读取:
mnt
sourceFolder
file1.txt
file2.txt
file3.txt
运行代码,引入文件并将其加载到 SQL 服务器中。然后,您可以简单地将这些文件存档(将它们从源文件夹
移动到存档文件夹中
。这可以简单地使用以下命令在数据砖中完成
dbutils.fs.mv(sourcefilePath, archiveFilePath, True)
因此,下次运行代码时,sourceFolder
中只有新文件。
我想我在这段代码中遇到了一点问题:当我试图在数据库中插入值时,我遇到了一个错误。
我试图将一个Azure Blob存储容器挂载到一个DataBricks实例上,虽然挂载确实有效,但它似乎没有使用存储容器。 我在这里漏掉了什么?
我有一个 json 文件存储在 Azure Blob 存储中,并且已使用数据工厂将其加载到 Azure SQL 数据库中。现在我想找到一种方法,以便仅将文件的新记录加载到我的数据库(因为文件每周左右更新一次)。有没有办法做到这一点? 谢谢!
问题内容: 我已经搜索了很多有关此问题的信息,但是我没有针对我的问题找到合适的解决方案,我有以下使用Java存储文件的方法, 当我尝试运行此代码时,出现以下错误, 请帮助我。 问题答案: 将文件数据转换为字节数组并在sql语句中设置
我正在尝试使用 azure databricks scala 将数据从 blob 存储加载到 SQL 数据仓库中。 我收到这个错误 潜在的SQLException:-com.microsoft.sqlserver.jdbc.SQLServerException:由于内部错误,外部文件访问失败:“访问HDFS时发生错误:Java调用HdfsBridge_IsDirExist时引发的异常。Java异常
问题内容: 我试图将图像存储在数据库中,由于某种原因,它似乎无法正常工作。这是我桌子的结构。 这是我的查询,它插入图像或至少多数民众赞成在什么: 如果我打印file_get_contents($ tmp_image)的值,那么屏幕上会有大量数据。但是,此值不会存储在数据库中,这就是我面临的问题。 问题答案: 问题 这会在PHP中创建一个名为的字符串。暂时不要使用MySQL,因为您尚未执行任何查询。