我使用以下方法将csv文件读入Spark:
df=spark.read.format(file_type).options(header='true',quote='\"',ignoreleadingwhitespace='true',inferschema='true').load(file_location)
这是正常行为还是读错了?
更新:我将标记问题作为回答,因为下面的提示是有用的。然而,我做的结果是:
df.show(5, truncate=False)
当前显示“、”贸易ID类别“、”贸易类别“、”地区“、”金额CurrencyType“、”扩展成本“、”贸易销售毛额“、”贸易销售净额“、”合计(Ext Std成本)“、”调整类型“、”排除“、”currencycode“、”fxrate“、”数量“、”文件名“、”记录计数“、”产品类别“、”直接“、”利润中心“、”利润中心地区“、”利润中心国家“
我将不得不回到基础,在文本编辑器中预览csv,以找出该文件的正确格式,从而找出哪里出了问题。注意,我必须将代码更新为以下内容以处理管道分隔符:
df = spark.read.format(file_type).options(header='true', quote='\"', delimiter='|',ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)
是的。这是正常的Beheighour。dataframe函数show()的默认值是显示20行。您可以为此设置一个不同的值(但请记住,打印文件的所有行是没有意义的),并阻止它截断。例如:
df.show(100, truncate=False)
我想用Apache Spark读入具有以下结构的文件。 csv太大了,不能使用熊猫,因为读取这个文件需要很长时间。有什么方法类似于 多谢!
我正在实现Spark数据源API v1的buildScan方法。 我正在尝试读取一个带有标题的。csv文件。 但是buildScan()内部的df.show返回正确的列。 我无法找到列映射到底哪里出错了。
正在尝试读取avro文件。 无法将运行到Avro架构的数据转换为Spark SQL StructType:[“null”,“string”] 尝试手动创建架构,但现在遇到以下情况: 通用域名格式。databricks。火花阿夫罗。SchemaConverters$CompatibleSchemaException:无法将Avro架构转换为catalyst类型,因为路径处的架构不兼容(avroTyp
我在一个Spark项目上工作,这里我有一个文件是在parquet格式,当我试图用java加载这个文件时,它给了我下面的错误。但是,当我用相同的路径在hive中加载相同的文件并编写查询select*from table_name时,它工作得很好,数据也很正常。关于这个问题,请帮助我。 java.io.ioException:无法读取页脚:java.lang.runtimeException:损坏的文
我使用spark-core 2.0.1版和Scala2.11。我有一个简单的代码来读取一个包含\escapes的csv文件。 null 有人面临同样的问题吗?我是不是漏掉了什么? 谢谢
试图读取一个空的镶木地板目录,得到这个错误 无法指定拼花地板的架构。必须手动指定 我的代码 尝试处理scala尝试和定期检查空目录 任何想法