问题：

向现有的parquet文件追加新列

姜宏放

2023-03-14

有什么方法可以在现有的parquet文件中追加一个新列吗？

共有1个答案

宣原

2023-03-14

是的，这可能与数据库Delta以及与拼花表。下面给出一个例子：-

这个例子是用python（pySpark）编写的

df = sqlContext.createDataFrame([('1','Name_1','Address_1'),('2','Name_2','Address_2'),('3','Name_3','Address_3')], schema=['ID', 'Name', 'Address'])

delta_tblNm = 'testDeltaSchema.test_delta_tbl'
parquet_tblNm = 'testParquetSchema.test_parquet_tbl'

delta_write_loc = 'dbfs:///mnt/datalake/stg/delta_tblNm'
parquet_write_loc = 'dbfs:///mnt/datalake/stg/parquet_tblNm'


# DELTA TABLE
df.write.format('delta').mode('overwrite').option('overwriteSchema', 'true').save(delta_write_loc)
spark.sql(" create table if not exists {} using DELTA LOCATION '{}'".format(delta_tblNm, delta_write_loc))
spark.sql("refresh table {}".format(print(cur_tblNm)))

# PARQUET TABLE
df.write.format("parquet").mode("overwrite").save(parquet_write_loc)
spark.sql("""CREATE TABLE if not exists {} USING PARQUET LOCATION '{}'""".format(parquet_tblNm, parquet_write_loc))
spark.sql(""" REFRESH TABLE {} """.format(parquet_tblNm))

test_df = spark.sql("select * testDeltaSchema.test_delta_tbl")
test_df.show()

test_df = spark.sql("select * from testParquetSchema.test_parquet_tbl")
test_df.show()

test_df = spark.sql("ALTER TABLE  testDeltaSchema.test_delta_tbl ADD COLUMNS (Mob_number String COMMENT 'newCol' AFTER Address)")
test_df.show()

test_df = spark.sql("ALTER TABLE  testParquetSchema.test_parquet_tbl ADD COLUMNS (Mob_number String COMMENT 'newCol' AFTER Address)")
test_df.show()

类似资料：

追加到现有序列文件

在我的用例中，我需要一个find a way将键/值对追加到现有序列文件中。怎么做？任何线索都会大有帮助。我正在使用Hadoop2X。
Golang：将文件追加到现有的tar归档文件中

问题内容：如何在Go中将文件附加到现有的tar存档中？我没有在文档中看到任何明显的方法。我有一个已经创建的tar文件，在关闭它之后，我想向它添加更多文件。编辑更改文档中的示例并遵循给出的答案，我仍然没有得到预期的结果。前三个文件正在写入tar，但是当我再次关闭并打开文件以对其进行写入时，永远不会写入新文件。代码运行正常。我不知道我在想什么。以下代码为我提供了一个tar文件，其中包含三个文
Java将新列追加到csv文件

问题内容：我想计算一些列数据并将其作为列写入文件。然后，在计算了另一列数据之后，我想将其附加到同一文件中，但作为新列。这是我所做的：结果-它将新列追加到第一列下方，因此我只有一个长列。谢谢，问题答案：您将必须逐行读取文件，然后将新列插入每一行。这是使用BufferedReader和BufferedWriter的解决方案
parquet文件

Parquet是一种柱状(columnar)格式，可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能，这些文件可以自动地保留原始数据的模式。加载数据 // sqlContext from the previous example is used in this example. // createSchemaRDD is used to implicitl
文件追加-FileAppender

由来顾名思义，FileAppender类表示文件追加器。此对象持有一个一个文件，在内存中积累一定量的数据后统一追加到文件，此类只有在写入文件时打开文件，并在写入结束后关闭之。因此此类不需要关闭。在调用append方法后会缓存于内存，只有超过容量后才会一次性写入文件，因此内存中随时有剩余未写入文件的内容，在最后必须调用flush方法将剩余内容刷入文件。也就是说，这是一个支持缓存的文件内容追加器
追加到文件android

问题内容：嘿，我需要附加到我的文件中，但是它不起作用，它会不断覆盖文件，任何人都可以告诉我出什么问题了：提前致谢。问题答案：您可以通过更改分配以下内容的行来解决此问题：使用仅包含的构造函数打开文件时，它将覆盖文件中先前的内容。如果提供第二个参数，则表示您要附加到第二个参数的末尾。

向现有的parquet文件追加新列

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档