当前位置: 首页 > 面试题库 >

python中的pandas系列的地板或天花板?

晁聪
2023-03-14
问题内容

我有一个熊猫系列series。如果要获取按元素划分的地板或天花板,是否有内置方法,还是必须编写函数并使用apply?我问,因为数据很大,所以我很欣赏效率。同样,对于熊猫包装,也没有问过这个问题。


问题答案:

您可以使用NumPy的内置方法来执行此操作:np.ceil(series)np.floor(series)

两者都返回Series对象(而不是数组),因此保留了索引信息。



 类似资料:
  • 我是大数据生态系统的新手,有点起步。 我读过几篇关于使用spark流媒体阅读Kafka主题的文章,但我想知道是否可以使用spark作业而不是流媒体阅读Kafka主题?如果是的话,你们能帮我指出一些可以让我开始学习的文章或代码片段吗。 问题的第二部分是以拼花格式向hdfs写信。一旦我读了Kafka的书,我想我会有一个rdd。将此rdd转换为数据帧,然后将数据帧写入拼花文件。这是正确的方法吗。 感谢您

  • 我能够以拼花格式写入,并通过如下列进行分区: 但我无法用Glue的DynamicFrame做到这一点。 我试图通过作为的一部分,因为AWS文档说拼花胶不支持任何格式选项,但这不起作用。 这有可能吗?怎么可能?至于这样做的原因,我认为工作书签是必要的,因为这对我目前不起作用。

  • 由于,我检查了一个spark作业的输出拼花文件,该作业总是会发出声音。我在Cloudera 5.13.1上使用了 我注意到拼花地板排的大小是不均匀的。第一排和最后一排的人很多。剩下的真的很小。。。 拼花地板工具的缩短输出,: 这是已知的臭虫吗?如何在Spark中设置拼花地板块大小(行组大小)? 编辑: Spark应用程序的作用是:它读取一个大的AVRO文件,然后通过两个分区键(使用

  • 问题内容: 在我的数据框中,一列由列表组成,例如: 我需要找出此数据框中列表[1,2]的位置。我试过了: 和 但完全失败了。比较似乎很简单,但这是行不通的。我在这里想念什么吗? 问题答案: 不要在单元格中使用,这会给您带来很多问题。如果确实需要一列,请使用:

  • 关于雪花的新功能--推断模式表函数,我有一个问题。INFER模式函数在parquet文件上执行得很好,并返回正确的数据类型。但是,当parquet文件被分区并存储在S3中时,INFER模式的功能与pyspark Dataframes不同。 在DataFrames中,分区文件夹名称和值作为最后一列读取;在雪花推断模式中有没有一种方法可以达到同样的结果? 示例: 示例:{“AGMT_GID”:1714

  • 问题内容: 我有一个混合类型的pandas dataFrame,有些是字符串,有些是数字。我想用“。”替换字符串列中的NAN值,并用0替换浮点数列中的NAN值。 考虑这个小的虚拟示例: 现在,我可以分为三行: 由于这是一个很小的数据帧,因此3行可能没问题。在我的真实示例中(由于数据机密性原因,在此无法共享),我还有更多的字符串列和数字列。所以我最终只为fillna写了很多行。有一种简洁的方法吗?