问题：

火花连接器负载与sstableloader性能的关系

益银龙

2023-03-14

我现在有一个spark工作，它从HDFS中提取数据，并将数据转换为平面文件，以加载到Cassandra中。

共有1个答案

乔俊才

2023-03-14

是的，对于已经在HDFS中的文件，Spark Cassandra连接器可以快得多。使用spark，您将能够分布式地抓取并写入C*。

即使没有Spark，使用基于java的加载程序如https://github.com/brianmhess/cassandra-loader也能显著提高速度。

类似资料：

Cassandra火花连接器读取性能

我有一些Spark经验，但刚开始使用Cassandra。我正在尝试进行非常简单的阅读，但性能非常差——不知道为什么。这是我正在使用的代码：所有3个参数都是表上键的一部分：主键（group\u id，epoch，group\u name，auto\u generated\u uuid\u field），聚类顺序为（epoch ASC，group\u name ASC，auto\u generat
两个表连接时的火花性能问题

我有两个大的Hive表，我想用spark.sql将它们连接起来。表格采用snappy格式，在Hive中存储为拼花文件。我想加入它们并对某些列进行一些聚合，假设计算所有行和一列的平均值（例如 doubleColumn），同时使用两个条件进行过滤（假设在 col1，col2 上）。注意：我在一台机器上进行测试安装（虽然功能非常强大）。我希望集群中的性能可能会有所不同。我的第一个尝试是使用spar
JDBC火花连接

我正在研究建立一个JDBC Spark连接，以便从r/Python使用。我知道和都是可用的，但它们似乎更适合交互式分析，特别是因为它们为用户保留了集群资源。我在考虑一些更类似于Tableau ODBC Spark connection的东西--一些更轻量级的东西（据我所知），用于支持简单的随机访问。虽然这似乎是可能的，而且有一些文档，但（对我来说）JDBC驱动程序的需求是什么并不清楚。既然Hiv
用火花连接器填充Neo4j

我使用Spark2和neo4j3（安装在一个节点上），并使用这个spark/Neo4j https://github.com/neo4j-contrib/neo4j-spark-connector 我可以使用我的数据库。多谢帮忙。
基于Spark版本的火花负载罐

我们希望以版本不可知的方式为我们的spark作业加载< code > org . Apache . spark:spark-avro _ 2.12 包。有的人在用火花3.1.2，有的人在用3.2.0。对于3.1.2上的那些，我需要加载：对于3.2.0上的，我需要加载：我是否可以实现一种通用机制来根据火花版本加载正确的jar，而无需我的用户在他们那端做任何事情？我不介意在本地保存所有版本的
火花线的性能问题

我们正在尝试在纱线上运行我们的火花集群。我们有一些性能问题，尤其是与独立模式相比。我们有一个由5个节点组成的集群，每个节点都有16GB的RAM和8个核心。我们已将纱线站点中的最小容器大小配置为3GB，最大为14GB。xml。向纱线集群提交作业时，我们提供的执行器数量=10，执行器内存=14 GB。根据我的理解，我们的工作应该分配4个14GB的容器。但spark UI仅显示3个容器，每个容器的容量

火花连接器负载与sstableloader性能的关系

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档