问题：

在AWS胶中使用空值删除行的问题

司空凌

2023-03-14

目前有一个AWS胶水作业的问题，读取一个S3集合并将其写入AWS Redshift，其中我们有一列null值。

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_1", table_name = "table_1", transformation_ctx = "datasource0")

resolvedDDF = datasource0.resolveChoice(specs = [
  ('price_current','cast:double'),
  ('price_discount','cast:double'),
])

applymapping = ApplyMapping.apply(frame = resolvedDDF, mappings = [
  ("id", "string", "id", "string"), 
  ("status", "string", "status", "string"), 
  ("price_current", "double", "price_current", "double"), 
  ("price_discount", "double", "price_discount", "double"), 
  ("created_at", "string", "created_at", "string"), 
  ("updated_at", "string", "updated_at", "string"), 
], transformation_ctx = "applymapping")

droppedDF = applymapping.toDF().dropna(subset=('created_at', 'price_current'))

newDynamicDF = DynamicFrame.fromDF(droppedDF, glueContext, "newframe")

dropnullfields = DropNullFields.apply(frame = newDynamicDF, transformation_ctx = "dropnullfields")

datasink = glueContext.write_dynamic_frame.from_jdbc_conf(frame = dropnullfields, catalog_connection = "RedshiftDataStaging", connection_options = {"dbtable": "dbtable_1", "database": "database_1"}, redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasink")

Error (code 1213) while loading data into Redshift: "Missing data for not-null field"
Table name: "PUBLIC".table_1
Column name: created_at
Column type: timestampt(0)
Raw field value: @NULL@

共有1个答案

黎奇略

2023-03-14

如果不想删除默认值，可以传递默认值

df= dropnullfields.toDF()

df = df.na.fill({'price_current': 0.0, 'created_at': ' '})

dyf = DynamicFrame.fromDF(df,'glue_context_1')

datasink = glueContext.write_dynamic_frame.from_jdbc_conf(frame = dyf, catalog_connection = "RedshiftDataStaging", connection_options = {"dbtable": "dbtable_1", "database": "database_1"}, redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasink")

如果希望删除，请使用以下代码代替df.na.fill

df = df.na.drop(subset=["price_current", "created_at"])

类似资料：

AWS胶PySpark替换空值

我正在运行一个AWS Glue作业，使用从Glue自动生成的PySpark脚本，将S3上的管道分隔文件加载到RDS Postgres实例中。最初，它抱怨某些列中的空值： http://spark.apache.org/docs/latest/api/python/pyspark.sql.sql.html#pyspark.sql.dataframe.fillna 现在，当我运行作业时，它会抛出以下
使用AWS Athena在AWS胶中复制表

null 这些服务都是为了协同工作而设计的，因此必须有一个适当的方法来完成这一点。任何建议都将不胜感激：）
使用sed删除空行

问题内容：我正在尝试使用sed删除空行：但我没有运气。例如，我有以下几行：我希望它像：这应该是什么代码？问题答案：您的“空”行中可能有空格或制表符。使用POSIX类与去除只含有空格的所有行：使用ERE的较短版本，例如gnu sed：（请注意，sed的确实不支持PCRE）。
使用sed删除空行

这个的代码应该是什么？
如何删除R中所有空值的行

我有以下矩阵：我只想删除id为3的行。请注意，当我使用时，它仍然保留，因为id本身是唯一的。
PySpark/Aws胶水的性能问题

我有一个数据帧。我需要将每个记录转换为JSON，然后使用JSON负载调用API将数据插入postgress。我在数据框中有14000条记录，要调用api并获得响应，需要5个小时。有没有办法提高性能。下面是我的代码片段。注意：我知道通过做"json_insert=df_insert.toJSON（）。收集（）"我正在失去数据帧的优势。有没有更好的方法来完成。

在AWS胶中使用空值删除行的问题

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档