当前位置: 首页 > 知识库问答 >
问题:

Spark VectorAssembler错误-PySpark 2.3-Python

南门英飙
2023-03-14

我正在使用Pyspark2.3.0并创建了一个非常简单的Spark dataframe来测试VectorAssembler的功能。这是一个较大的dataframe的子集,我在其中只选择了几个数值(双数据类型)列:

>>>cols = ['index','host_listings_count','neighbourhood_group_cleansed',\
        'bathrooms','bedrooms','beds','square_feet', 'guests_included',\
        'review_scores_rating']
>>>test = df[cols]
>>>test.take(3)
>>>from pyspark.ml.feature import VectorAssembler
>>>assembler = VectorAssembler(inputCols=cols, outputCol="features")
>>>output = assembler.transform(test)
>>>output.take(3)

共有1个答案

倪鹏
2023-03-14

您发布的堆栈跟踪提到,问题是由正在组装的列中的null值引起的。

您需要处理cols列中的null值。在调用transform之前,请尝试test.fillna(0,subset=cols),或者,筛选出那些列中具有空值的行。

 类似资料:
  • 问题内容: 我已经来了一段时间,并阅读了许多有关该主题的网站。怀疑我有垃圾造成了这个问题。但是哪里? 当我在python中导入MySQLdb时,这是错误: 我正在尝试64位,所以在这里检查: 已将python的默认版本设置为2.6 尝试删除构建目录和python setup.py clean重命名为Python / 2.5 / site-packages,使其无法尝试提取它。 删除所有内容,并按照

  • 问题内容: 我如下 当我运行时,这是我得到的错误: 我不知道为什么不导入该模块。我正在使用Python 2.7和Django 1.4。 问题答案: 功能仅在Django 1.5版本中添加。

  • 我正在尝试搜索亚马逊的产品广告,并使用botlenose来帮助我做到这一点。但是,我刚刚收到HTTP错误400。 其他一些重要信息: 我来自巴西,我的标签也来自亚马逊。这是个问题吗? 我确实检查了我的钥匙、秘密和标签,一切正常。我确实在StackOverflow上查看了其他一些问题,但对我来说没有任何效果。 当然,出于安全原因,我更改了密钥。 Traceback(最近一次调用最后一次):File"

  • 问题内容: 我有一个脚本,应该将某些内容附加到文件中,但是它引发了一个我不理解的错误,并且不确定如何触发该错误。 这是代码: 这是“ test2 words.txt”文件的内容: 这是我得到的完整错误: 问题答案: 引用Python文件操作的答案,在Windows上进行读写之间切换时,必须有一个中间的fflush,fsetpos,fseek或rewind操作。 这是一个可能的解决方法: 在中,是参

  • 我有一个基于Spring Web model view controller(MVC)框架的项目。Spring Web模型-视图-控制器(MVC)框架的版本是3.2.8 我有这个控制器 这个URL一切正常:

  • 目前从Angular JS controller中,我试图将JSON数据发送到后端服务。但是我有400个错误的请求错误。 在Controller中,我试图通过http服务发送数据,如下所示:

  • 我得到了这个错误,有什么想法会导致它吗?我试图发送一个DTO,它有一个扩展抽象类的对象列表,我想这个问题可能是因为DTO中的列表,还是因为抽象类的子类?

  • 问题内容: 什么是python中的“错误的魔术数字” ,如何解决? 我只能在网上找到的唯一东西表明,这是由于编译文件,然后尝试将其与错误版本的python一起使用而引起的。但是,就我而言,该文件似乎有时可以很好地导入,而其他时候则不能,并且我不确定为什么。 python在回溯中提供的信息并不是特别有用(这就是为什么我在这里询问…的原因),但在这里是有帮助的: 问题答案: 幻数来自UNIX类型的系统