整理周二的数据集恐怖电影。csv
,我看不到如何拆分“流派”列。我试过:
字段列表
以下是输出的示例:
[1]“D”“r”“a”“m”“a”“H”“o”“r”“o”“r”“o”“r”“S”“c”“i”“F”“i”[22]“T”“H”“r”“i”“l”“l”“e”“r”
出于某种原因,这会将我的元素拆分为单个字符。以下是本专栏的简要介绍,您可以看到它在数据框架中的结构:
$genres
|
字符在R中特殊吗?我错过了什么?
在R中,“|”是表示“或”的逻辑运算符。
您可以执行以下操作来解决错误,将fixed=TRUE
,默认设置为FALSE
。
fieldList <- strsplit(df$genres, $"|", fixed=TRUE)
下面是上述函数的文档strsplit
:
https://www.rdocumentation.org/packages/base/versions/3.6.1/topics/strsplit
我有以下格式的数据。向量的第一个元素指的是标题,向量的第二个到底部指的是针对标题的值。我希望以表格/结构化格式(或带有标题和值的数据框)放置数据。
我有下面的spark数据框架。 我必须将上面的数据帧列拆分为多个列,如下所示。 我尝试使用分隔符进行拆分;和限制。但是它也将主题拆分为不同的列。姓名和年龄被组合在一起成一列。我要求所有主题在一列中,只有姓名和年龄在单独的列中。 这在Pyspark有可能实现吗?
问题内容: 我想将它们分成几个新列。假设我有一个看起来像这样的数据框: 我知道使用: 我可以分割一个字符串。但是,下一步,我想像这样有效地将拆分后的字符串放入新列中: 我可以例如这样做: 但是,如何才能更优雅地达到相同的结果呢? 问题答案: 该方法有一个参数: 带有列名: Python> = 3.6 f字符串的情况更加整洁:
我正在Spark 3.0.0上执行Spark结构流的示例,为此,我使用了twitter数据。我在Kafka中推送了twitter数据,单个记录如下所示 2020-07-21 10:48:19|1265200268284588034|RT@narendramodi:与@IBM首席执行官@ArvindKrishna先生进行了广泛的互动。我们讨论了几个与技术相关的主题,…|印度海得拉巴 在这里,每个字段
我有列。 如何根据值将其拆分为2? 第一个将包含
问题内容: 有一个文本字符串的一列包含逗号分隔的值。我想拆分每个CSV字段,并为每个条目创建一个新行(假设CSV干净并且只需要在上拆分)。例如,应变为: 到目前为止,我已经尝试了各种简单的函数,但是.apply当该方法用于轴上时,该方法似乎只接受一行作为返回值,因此我无法工作。我们欢迎所有的建议! 示例数据: 我知道这行不通,因为我们通过丢失了元数据,但是它应该使你了解我尝试做的事情: 问题答案: