当前位置：首页 > 专题 >

《花旗银行》专题

从Kafka读取时如何异步制作火花流
我有一个Kafka分区，和一个parkStreaming应用程序。一个服务器有10个内核。当火花流从Kafka收到一条消息时，后续过程将需要5秒钟（这是我的代码）。所以我发现火花流读取Kafka消息很慢，我猜当火花读出一条消息时，它会等到消息被处理，所以读取和处理是同步的。我想知道我可以异步读取火花吗？这样从Kafka读取的数据就不会被后续处理拖动。然后火花会很快消耗来自Kafka的数据。然后我可
ES6中带或不带花括号的导入[重复]
以下两者之间的区别是什么：和 ? 我认为它与导出默认标题有某种联系和
从Pyspark中的多个目录读取拼花文件
我需要从不是父目录或子目录的多个路径读取拼花地板文件。例如，从dir1\u 1和dir1\u 2读取拼花文件现在，我正在读取每个目录并使用“unionAll”合并数据帧。有没有一种方法可以不使用unionAll从dir1\u 2和dir2\u 1读取拼花地板文件，或者有没有什么奇特的方法可以使用unionAll 谢谢
向Cassandra写入大火花数据帧-性能调整
我在Spark 2.1.0/Cassandra 3.10集群（4台机器*12个内核*256个RAM*2个SSD）上工作，很长一段时间以来，我一直在努力使用Spark Cassandra connector 2.0.1向Cassandra写入特定的大数据帧。这是我的表的模式用作主键的散列是256位；列表字段包含多达1MB的某种结构化类型的数据。总共，我需要写几亿行。目前，我正在使用以下写入方法
如何在火花日志中隐藏密钥密码？
在运行spark作业时，可以在事件日志中以纯文本形式看到SSL密钥密码、keystorepassword。你能帮我如何从日志中隐藏这些密码吗？当我看到下面的内容时，https://issues.apache.org/jira/browse/spark-16796似乎是他们修复了它，使其不受web UI的影响。但我不确定我能用原木修复它你的帮助真的很感激！！ “{”事件“：”SparkListe
Spark在Hadooprdd上花了很长时间：输入分裂
18/02/07 04:44:51 INFO TaskSetManager：在1025毫秒内完成localhost（executor driver）上阶段1.0（TID 7）中的任务6.0（7/307）为什么Spark要做这么多'hadooprdd:Input拆分‘？这样做的目的是什么？我如何加快或摆脱这个过程？代码如下：
java.lang.方法错误：拼花。Preconditions.check状态（ZLjava/lang/String；）V
运行Spark 1.3.1和1.4.1时出现以下错误 Java语言lang.NoSuchMethodError：拼花地板。前提条件。检查状态（ZLjava/lang/String；）镶木地板处为V。架构。类型$PrimitiveBuilder。在拼花地板上建造（Types.java:314）。架构。类型$PrimitiveBuilder。在拼花地板上建造（类型：java:232）。架构。类型$生成
熊猫用append将数据帧写入拼花格式
我正试图在模式下将写入文件格式（在最新的pandas版本0.21.0中引入）。但是，文件将被新数据覆盖，而不是附加到现有文件。我错过了什么？写入语法是读取语法是
如何去除花括号并保留JSON的键值
因此，我想删除所有内部卷曲括号，同时重命名值，如 {“意向”：“P&P_购买”，“Value1”：日期：12月30日，产品：印楝尿素OMIFCO(45公斤），数量：18公吨，INV_NO:NRKT07003160；“Value2”：日期：12月19日，产品：印楝尿素OMIFCO(45公斤），数量：18公吨，INV_NO:NRKT07003160；“Value3”：日期：1月19日，产品：印楝尿素O
Apache Flume花费的时间比创造性命令多
我在本地文件系统中有24GB文件夹。我的任务是将该文件夹移动到HDFS。我有两种方法。1）hdfs dfs-复制来自本地 /home/data/ /home/ 这大约需要 15 分钟才能完成。 2）使用水槽。这是我的经纪人这一步花了将近一个小时将数据推送到HDFS。据我所知，Flume是分布式的，所以Flume加载数据的速度应该比copyFromLocal命令更快。
如何选择我的火花程序的scala版本？
我正在构建我的第一个Spark应用程序，用IDEA开发。在我的集群中，Spark的版本是2.1.0，Scala的版本是2.11.8。 http://spark.apache.org/downloads.html告诉我：“从2.0版本开始，Spark默认是用Scala 2.11构建的。Scala 2.10用户应该下载Spark源代码包，并使用Scala 2.10支持进行构建”。所以我的问题是：“
如何在spring boot中处理RequestParam中的花括号
我有一个带有GET服务的spring启动应用程序。的值是一个编码值。如果我把下面作为值传递给参数子它无法捕获请求，并且控件不在函数内部。如果我们作为值传递给参数子：它很好用。 > 由于服务器无法处理该请求，所以返回400。我需要捕获这些请求，然后通过正确编码来处理它们。前进的道路是什么？我是新来的Spring启动/Spring和Java本身。如果我能得到一些见解，那就太好了。另外，我
阿帕奇火花 - 无法理解斯卡拉示例
我正在尝试了解这个位置的scala代码。（我来自java背景）。 https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/GroupByTest.scala 我在下面的部分感觉完全迷失了我知道并行化和平面映射的作用。我不明白arr1是如何初始化的。它是 int 类型
Pyspark拆分字符串类型的火花数据框
我正在使用spark(批处理，而不是流)从kafka topic中读取数据来创建spark dataframe。我想使用spark将这个数据帧加载到cassandra。Dataframe是字符串格式，如下所示。 root |-value:string(nullable = true) 我尝试使用'，'分隔符拆分数据帧记录，并形成新的数据帧，我可以将其数据到cassandra。创建了如下的火花DF
火花中的coalesce（Num分区）是否经过洗牌？
我在火花变换函数中有一个简单的问题。 coalesce（numPartitions） - 将 RDD 中的分区数减少到 numPartitions。可用于在筛选大型数据集后更有效地运行操作。我的问题是 > < Li > < p > coalesce(num partitions)真的会从filterRDD中删除空分区吗？ coalesce(numPartitions)是否经历了洗牌？

首页

82

83

84

85

86

87

88

89

90

尾页

最新发布

米塔碳UI设计师面试经验分享美团到综搜推日常实习一面凉经鹅子WXG微信支付部门机器学习实习凉经 VIVO策略算法分析实习一面凉经（体验最差的一次）商汤一面- 大模型算法应用实习生

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

node.js - sequelize 事务错误不回滚，打印回滚了，但是第一条还是更新了？网如何在 Flutter 中解决 flutter_secure_storage 无法使用的问题？网 python - 利用Python-doc创建DOC文件不成功？网 vue.js - Vue + elm-plus UI布局问题：如何控制文本垂直排列？网 vue.js - Electron + Vue 项目在 WebStorm 中 @router 路径报红线如何处理？网

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

njt JTStackController 自定义地图覆盖层 pySerial sklearnflask Uix Kit swall DXPopover

文档资料

WEKA 3.5.5 用户指南像 IDE 样使用 VIM JavaScript 入门教程 Etherscan API 中文文档 Hibernate 中文教程