当前位置: 首页 > 知识库问答 >
问题:

读取文本文件到元组pyspark

孙泳
2023-03-14

我有一个关于读取和创建数据集的问题。我有一个文本文件,其中包含:

Sunny,Hot,High,Weak,No
Sunny,Hot,High,Strong,No

我这样实现了这段代码:

from pyspark import SparkConf, SparkContext
import operator
import math

conf = SparkConf().setMaster("local[*]").setAppName("Lab 6")
sc = SparkContext(conf=conf)
rawData = sc.textFile("txtfile.data")
data = rawData.flatMap(lambda line: line.split(","))

而不是有这样的结果:

[(Sunny, Hot, High, Weak, No), (Sunny, Hot, High, Strong, No)]

它给了我一个结果:

['Sunny', 'Hot', 'High', 'Weak', 'No', 'Sunny', 'Hot', 'High', 'Strong', 'No']

谁能告诉我怎么解决这个问题?

共有1个答案

吉凯捷
2023-03-14

FlatMapMap(转换)和flatten的组合,它将为子数组中的每个元素创建一行。

您希望使用map方法,该方法将生成字符串类型数组的列。

 类似资料:
  • 本文向大家介绍C#读取文本文件到listbox组件的方法,包括了C#读取文本文件到listbox组件的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了C#读取文本文件到listbox组件的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的C#程序设计有所帮助。

  • 问题内容: 我有一个包含一些元数据的文件,然后是包含2个带有标题的列的实际数据。在numpy中使用genfromtxt之前,是否需要将两种类型的数据分开?还是可以以某种方式拆分数据?将文件指针放在标题上方行的末尾,然后从那里尝试genfromtxt怎么办?谢谢该文件的格式如下所示: 问题答案: 如果您不希望第一行,请尝试(如果没有丢失的数据): 或(如果缺少数据): 如果然后要解析标头信息,则可以

  • 现在,我只是尝试读取与Java类存储在同一目录中的文件内容,并访问其长度。但是,每当传递正确的文件名以创建新的对象时,其长度返回为零。我假设这是因为由于某种原因找不到该文件。 我的文件结构如下: 我尝试用,其中等于。

  • 可以使用FileReader直接读取文本文件 我们为什么需要使用InputStream方法

  • 我有一个java代码,我在其中读取了一个txt文件,然后迭代它,以便我可以将其填充到2d数组中。在我读取文件后,我能够打印出其内容,因此我确信该文件已被读取。并且我还确信bufferedreader库的. hasNextLine方法在找到一行时显示为true。但是当我在time循环中使用它时,它就像没有找到任何行一样,因此它没有迭代,因为我不知道我在表中有多少行。== 此外,当我硬编码行数以便检查

  • 我试图通过创建一个函数来编写一个简单的文本文件阅读器,该函数接受文件的路径并将每行文本转换为char数组,但它不起作用。 这里出了什么问题? 从以前的修订版更改了一点代码后,这似乎仍然不起作用,现在它给我一个异常101。 我在Firefox上测试过这个功能,它可以工作,但在Google Chrome上它就是不工作,它一直给我一个异常101。我如何让它不仅适用于Firefox,还适用于其他浏览器(尤