当前位置: 首页 > 知识库问答 >
问题:

使用Apache Spark 3从Cosmos DB流式传输数据

居星阑
2023-03-14

使用 Spark 2 连接器从 CosmosDB 流式传输可以使用 Changefeed 实现。

https://docs.microsoft.com/en-us/azure/cosmos-db/spark-connector#streaming-reads-from-cosmos-db

我们如何在Spark 3中做同样的事情?我正在使用Cosmos DB Apache Spark 3联机事务处理连接器SQLAPI(beta)。

https://docs.microsoft.com/en-us/azure/cosmos-db/create-sql-api-spark#query-cosmos-db

共有1个答案

鲁炳
2023-03-14

现在没有支持Spark 3的CosmosDB连接器的正式版本。但是你可以自己从3.0分支编译连接器——它对我有用,包括更改源

根据评论更新:测试版可用:https://docs.microsoft.com/en-us/azure/cosmos-db/sql-api-sdk-java-spark-v3

 类似资料:
  • 我第一次尝试Kafka,并使用AWS MSK设置Kafka群集。目标是将数据从MySQL服务器流式传输到Postgresql。我使用debezium MySQL连接器作为源,使用Confluent JDBC连接器作为接收器。 MySQL配置: 注册Mysql连接器后,其状态为“正在运行”,并捕获MySQL表中所做的更改,并以以下格式在消费者控制台中显示结果: 我的第一个问题:在表中“金额”列是“十

  • 我按照Kantega/storm-twitter-workshop项目链接的步骤进行操作,但我在某一点上卡住了。在测试凭证时,通过运行文件夹中的主类作弊 cd作弊< br> mvn编译exec:Java-dexec . classpathscope = compile-dexec . main class = storm . starter . cheatingtwitterfuntopology

  • 问题内容: 使用MVC模型,我想编写一个JsonResult,它将Json字符串流式传输到客户端,而不是一次将所有数据转换成Json字符串,然后将其流回客户端。我有一些动作需要在Json传输时发送非常大的记录(超过300,000条记录),我认为基本的JsonResult实现是不可伸缩的。 我正在使用Json.net,我想知道是否有一种方法可以在转换Json字符串时流化它的块。 但是我不确定如何将这

  • 使用debezium从Postgres流式更改 已完成的设置: Docker设置。 启动Postgres、zookeeper、kafka和debezium Connector。 使用decoderbufs、wal2json(postgres)设置远程数据库。 使用curl连接到debezium。 创建了一个观察者。 问题:当我启动watcher时,它读取了之前发生的所有更改,但当任何插入完成时,k

  • 问题内容: 我想使用elasticsearch-river-mysql以便将数据从MySQL数据库连续传输到ElasticSearch。我是ES和Rivers的初学者,所以希望您能为我的问题提供帮助。 据我所知,数据将从MySQL数据库流式传输到ES集群,后者将自动对其进行索引。那是对的吗?我需要了解任何超时或限制吗? 关系数据库表之间的外键关系将如何转换为ES?包含外键的表行是否将成为ES文档的

  • 我正在尝试使用apache flume将数据加载到hbase中。当我使用flume将数据传输到hadoop时,它工作得很好。但是当我启动flume代理将数据加载到hbase时,我得到了NoClassDefFoundError。 这是我的水槽配置: flume-env.sh 代理4.conf