当前位置: 首页 > 知识库问答 >
问题:

在RDD PySpark中导入csv文件

朱风史
2023-03-14

我们有一个名为survey.csv的csv文件,我们需要将其加载到rdd中。

我们尝试了这个:

rdd_test = survey_results.csv.map(lambda x: (x, 1)) 

它不起作用。有人能帮忙吗?

共有1个答案

狄溪叠
2023-03-14

SparkContext.text文件创建一个RDD

导入系统

from pyspark import SparkContext
 
# create Spark context
sc = SparkContext()
 
# read input text file to RDD
lines = sc.textFile("./survey.csv")

来源

帮助SO发布

 类似资料:
  • 我尝试使用Neo4j工具和导入csv文件。 我有个问题。我的csv文件是清晰的,但是,在neo4j浏览器。

  • 然后我试着用斜线。

  • 我目前正在努力导入一个excel-csv文件到python。我确信我的问题很容易解决,但是我对Python编程还是很陌生的。 我使用的代码是: 然后我得到了这种错误: 我考虑过需要添加sep=“,”之类的内容,但这也不起作用。所以我现在有点无助。已经非常感谢了!:)

  • 本文向大家介绍R导入.csv文件,包括了R导入.csv文件的使用技巧和注意事项,需要的朋友参考一下 示例 使用base R导入 可以使用read.csv来包装逗号分隔的值文件(CSV),该文件可以包装read.table,但可用于sep = ","将分隔符设置为逗号。 用户友好选项file.choose允许浏览目录: 笔记 与不同read.table,read.csv默认为header = TRU

  • 我试图通过macOS开发机器上的Cypher Shell(而不是neo4j-shell)将一个大型CSV文件导入到neo4j3.x中。 当shell尝试访问CSV文件时,Neo4j应用程序的路径会被添加到前面。这将导致如下所示的concat路径: 这会抛出一个“无法加载外部资源:...”误差 密码脚本被正确加载,因为预先的约束命令按预期执行。当密码脚本试图使用“load_csv”访问CSV文件时,