当前位置：首页 > 专题 >

《烽火》专题

火花数据帧连接字符串
如何使用Spark-Scala连接日期和时间列（两个字符串）
在火花scala中使用结构创建模式
我是scala新手，尝试从元素数组中创建自定义模式，以读取基于新自定义模式的文件。我正在从json文件中读取数组，并使用爆炸方法为列数组中的每个元素创建了一个数据框。获得的输出为：现在，对于上面列出的所有值，我尝试使用下面的代码动态创建val模式上面的问题是，我能够在struct中获取数据类型，但我也希望仅为数据类型decimal获取（scale和preicion），其限制条件为max a
解析火花sql的复杂类型
数据-我使用XML中的许多附加列获取此类数据，并使用com。databricks spark-xml\u 2.11库，用于将xml数据转换为数据帧。要求-必须从数组（struct）类型或列custom\u属性转换数据。示例中的custom\u属性，如示例输出所示。My struct有三个字段，分别命名为“\u VALUE”、“属性\u id”、“值”。我需要将属性id转换为列名称，数据为-检查“
从SQL查询火花数据帧
我正在尝试使用Apache Spark，以便将具有多个连接和子选择的（大型）SQL查询的结果加载到来自Spark的DataFrame中，如从SQL查询创建Spark Dataframe中所述。不幸的是，我这样做的尝试导致了拼花错误：线程“main”组织中出现异常。阿帕奇。火花sql。AnalysisException：无法推断拼花地板的架构。必须手动指定。我从谷歌看到的信息表明，当数据帧为空
如何将数据集[行]保存为火花中的文本文件？[重复]
我想将数据集[行]保存为文本文件，并在特定位置使用特定名称。有人能帮我吗？我已经试过了，但这会产生一个文件夹（LOCAL\u folder\u TEMP/filename），其中包含一个拼花文件：Dataset。写保存（LOCAL\u FOLDER\u TEMP filename）谢谢
通过编码点火器中的控制器传递到模型？
我想从下拉菜单中选择一个产品类别选项，并显示具有该特定类别的产品。以下是我认为的形式部分：正如您所看到的，我通过onchange=“this.form.submit（）；（如果这不是一个好主意，请建议其他方法，我只是不想使用ajax，因为我还不太擅长它，不管怎样，建议更好的方法）。然后在我的控制器中，我得到这个选项，并将其转换为数组，在我的模型中使用它。控制器部分：我的模型：在这里我没
从火花DataFrame在elasticsearch中索引嵌套字段
假设我有一张这样的桌子：它以拼花地板的形式存储。我需要在spark中读取表，在“field1”上执行groupBy，然后我需要在ES中存储一个嵌套字段（例如，称为“agg\u字段”），其中包含一个字典列表，其中包含字段2和字段3的值，这样文档将如下所示：我可以阅读表格并进行分组：我可以做一些聚合并将结果发送给es：但我不知道如何将聚合更改为嵌套的“agg\u fields”列，该列将被el
火花与涌入：OKIO冲突
（当我在打字的时候，我想试试阴影，我现在就做）谢谢
火花/scala字符串json内地图
我有一对看起来像第二个元素是一个字符串，我从函数get（）从http://alvinalexander.com/scala/how-to-write-scala-http-get-request-client-source-fromurl.这里是函数：现在我想把这个字符串转换成json，从中获取图片url。（来自此）https://stackoverflow.com/a/38271732/14
如何编写数据集编码器以支持将函数映射到组织。阿帕奇。火花sql。Scala Spark中的数据集[字符串]
从Spark 1.6迁移到Spark 2.2*会在尝试对查询拼花地板表返回的数据集应用方法时出现错误“错误：无法为“数据集”中存储的类型找到编码器。基本类型（Int、String等）。为了证明同样的错误，我对代码进行了过度简化。代码查询拼花地板文件以返回以下数据类型：“org”。阿帕奇。火花sql。Dataset[org.apache.spark.sql.Row]“我应用一个函数来提取字符串和整数
火花函数不可串行化
我有一门课：它运行得很好，但抛出了一个例外：在我对RDD的映射做了一个小更改之后：我以为这两个功能应该是一样的，但似乎不是。为什么它们不同？
向Cassandra写入大火花数据帧-性能调整
我在Spark 2.1.0/Cassandra 3.10集群（4台机器*12个内核*256个RAM*2个SSD）上工作，很长一段时间以来，我一直在努力使用Spark Cassandra connector 2.0.1向Cassandra写入特定的大数据帧。这是我的表的模式用作主键的散列是256位；列表字段包含多达1MB的某种结构化类型的数据。总共，我需要写几亿行。目前，我正在使用以下写入方法
大查询时间火花卡桑德拉
全能的开发者们。我在Spark中运行一些基本的分析，在这里我查询多节点Cassandra。我正在运行的代码以及我正在处理的一些非链接代码是： Spark的版本是1.6.0，Cassandra v3。0.10，连接器也是1.6.0。键空间有，表有5列，实际上只有一行。如您所见，有两个节点（OracleVM中制作的虚拟Macine）。我的问题是，当我测量从spark到cassandra的查询时间时，
如何在Apache火花爆炸JSON数组[重复]
给定一个spark 2.3数据帧，其中一列包含JSON数组，如何将其转换为JSON字符串的spark数组？或者，等效地，我如何分解JSON，以便输入：我得到：非常感谢！ p、数组中条目的形状是可变的。下面是一个示例输入，如果它是有用的： p. p. s.这不同于迄今为止所有建议的重复问题。例如，如何使用火花数据帧查询JSON数据列？的问题和解决方案适用于（1）数据是所有JSON数据，因此整
任务不可序列化：火花
我的spark任务是在运行时抛出不可序列化的任务。谁能告诉我我做错了什么吗？以下是stacktrace：

首页

22

23

24

25

26

27

28

29

30

尾页

最新发布

天翼云-技术支持一面我的面试经历 Minimax算法研发实习一面滴滴三面半凉经百度广告算法策略实习一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

视频处理 - 如何使用VLC录制RTMP实时流并分块保存文件？javascript - vue3怎么遍历一个组件中的所有项？mysql添加联合索引之后排序发生变化？python - 求助：为什么whl包在容器环境安装失败？flutter - 如何在Flutter中实现隐私合规的权限调用流程？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Apprise RubyCritic Sonar Runner how-to-npm DiskGenius cmwrap Evernote SDK for iOS Easy-Monitor

文档资料

一个月纯 JS 挑战中文指南 Windows App 应用开发教程 IIS 管理控制器帮助手册 v6.0 Twisted 与异步编程入门 Vuetify 中文文档