当前位置: 首页 > 知识库问答 >
问题:

自定义分隔符csv读取器火花

井疏珂
2023-03-14

我想用Apache Spark读入具有以下结构的文件。

628344092\t20070220\t200702\t2007\t2007.1370

csv太大了,不能使用熊猫,因为读取这个文件需要很长时间。有什么方法类似于

pandas.read_csv(file, sep = '\t')

多谢!

共有1个答案

蒋阳华
2023-03-14

使用spark.read.option(“delimiter”,“\t”).csv(file)sep代替delimiter

如果它实际上是\t,而不是tab特殊字符,则使用双\:spark.read.option(“delimiter”,“\\t”).csv(file)

 类似资料:
  • 如何捕捉此字段中的而不将其视为CSV分隔符?

  • 问题内容: 如何为角度JS使用自定义定界符?我想将语法从更改为。 有人可以教我一个完整的示例,以了解如何使用Angular来实现吗? 问题答案: 您可以用来更改用于AngularJS表达式的开始/结束符号: 然后,在您的模板中: 这是工作中的jsFiddle:http : //jsfiddle.net/Bvc62/3/ 在此处查看有关服务的文档:http : //docs.angularjs.or

  • 我正试图用在中添加自定义分隔符,但没有成功,我已经搜索了很多,并查看了下面提到的答案,但这对我没有帮助 链接1 链接2 链接3 我想在的每个项之间加上黑线,如下所示。 我在每行之间都有水平线,但不知道如何在列之间得到这些线。 chintan Soni的答案工作很好,但它只在一个场景中产生问题,当我有5个视图时,它还显示了其他3个项目的分界线,如下所示:

  • 问题内容: 我有一个CSV文件,其格式如下: “ FieldName1”,“ FieldName2”,“ FieldName3”,“ FieldName4” “ 04/13/2010 14:45:07.008”,“ 7.59484916392”,“ 10”,“ 6.552373” “ 04/13/2010 14:45:22.010 ”,“ 6.55478493312”,“ 9”,“ 3.53785

  • 我正在处理poc,我需要在其中创建数据帧,然后将其保存为ctrl分隔的文件。下面是我创建中间结果的查询 将结果保存在文本文件中 输出: 它将数据保存为逗号分隔,但我需要将其保存为ctrl-A单独我尝试了选项(“分隔符”、“\u0001”),但它似乎不受dataframe/rdd的支持。 有什么帮助的功能吗?