当前位置：首页 > 面试题库 >

python中的pandas系列的地板或天花板？

晁聪

2023-03-14

问题内容：

我有一个熊猫系列series。如果要获取按元素划分的地板或天花板，是否有内置方法，还是必须编写函数并使用apply？我问，因为数据很大，所以我很欣赏效率。同样，对于熊猫包装，也没有问过这个问题。

问题答案：

您可以使用NumPy的内置方法来执行此操作：np.ceil(series)或np.floor(series)。

两者都返回Series对象（而不是数组），因此保留了索引信息。

类似资料：

读Kafka的书，写拼花地板中的hdfs

我是大数据生态系统的新手，有点起步。我读过几篇关于使用spark流媒体阅读Kafka主题的文章，但我想知道是否可以使用spark作业而不是流媒体阅读Kafka主题？如果是的话，你们能帮我指出一些可以让我开始学习的文章或代码片段吗。问题的第二部分是以拼花格式向hdfs写信。一旦我读了Kafka的书，我想我会有一个rdd。将此rdd转换为数据帧，然后将数据帧写入拼花文件。这是正确的方法吗。感谢您
AWS带隔板的胶合拼花地板

我能够以拼花格式写入，并通过如下列进行分区：但我无法用Glue的DynamicFrame做到这一点。我试图通过作为的一部分，因为AWS文档说拼花胶不支持任何格式选项，但这不起作用。这有可能吗？怎么可能？至于这样做的原因，我认为工作书签是必要的，因为这对我目前不起作用。
火花拼花地板大小不均

由于，我检查了一个spark作业的输出拼花文件，该作业总是会发出声音。我在Cloudera 5.13.1上使用了我注意到拼花地板排的大小是不均匀的。第一排和最后一排的人很多。剩下的真的很小。。。拼花地板工具的缩短输出，：这是已知的臭虫吗？如何在Spark中设置拼花地板块大小（行组大小）？编辑： Spark应用程序的作用是：它读取一个大的AVRO文件，然后通过两个分区键（使用
pandas：比较系列中的列表对象

问题内容：在我的数据框中，一列由列表组成，例如：我需要找出此数据框中列表[1,2]的位置。我试过了：和但完全失败了。比较似乎很简单，但这是行不通的。我在这里想念什么吗？问题答案：不要在单元格中使用，这会给您带来很多问题。如果确实需要一列，请使用：
雪花在拼花地板上不是按柱分割的

关于雪花的新功能--推断模式表函数，我有一个问题。INFER模式函数在parquet文件上执行得很好，并返回正确的数据类型。但是，当parquet文件被分区并存储在S3中时，INFER模式的功能与pyspark Dataframes不同。在DataFrames中，分区文件夹名称和值作为最后一列读取；在雪花推断模式中有没有一种方法可以达到同样的结果？示例：示例：{“AGMT_GID”：1714
Fillna在Python Pandas中的多列中

问题内容：我有一个混合类型的pandas dataFrame，有些是字符串，有些是数字。我想用“。”替换字符串列中的NAN值，并用0替换浮点数列中的NAN值。考虑这个小的虚拟示例：现在，我可以分为三行：由于这是一个很小的数据帧，因此3行可能没问题。在我的真实示例中（由于数据机密性原因，在此无法共享），我还有更多的字符串列和数字列。所以我最终只为fillna写了很多行。有一种简洁的方法吗？

python中的pandas系列的地板或天花板？

相关阅读

相关文章

相关问答

相关工具

相关文档