问题：

从DataFrame转换为javapairrdd

夏星阑

2023-03-14

val countVectors = cvModel.transform(filteredTokens)
    .select("docId", "features")
    .map { case Row(docId: Long, countVector: Vector) => (docId, countVector) }
    .cache()

然后输入LDA：

lda.run(countVectors)

但是在Java API中，我使用以下代码获得了CountVectorizerModel：

CountVectorizerModel cvModel = new CountVectorizer()
        .setInputCol("filtered").setOutputCol("features")
        .setVocabSize(vocabSize).fit(filteredTokens);

像这样：

(0,(22,[0,8,9,10,14,16,18],
[1.0,1.0,1.0,1.0,1.0,1.0,1.0]))
(1,(22,[0,1,2,3,4,5,6,7,11,12,13,15,17,19,20,21],
1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0]))

JavaPairRDD<Long, Vector> countVectors = cvModel.transform(filteredTokens)
          .select("docId", "features").toJavaRDD()
          .mapToPair(new PairFunction<Row, Long, Vector>() {
            public Tuple2<Long, Vector> call(Row row) throws Exception {
                return new Tuple2<Long, Vector>(Long.parseLong(row.getString(0)), Vectors.dense(row.getDouble(1)));
            }
          }).cache();

Vectors.dense(row.getDouble(1))

我使用的是Spark和MLlib 1.5.1以及Java8

任何帮助都是非常感谢的。谢谢，当我试图从DataFrame转换为JavaPairRDD时，这里是异常日志文件

15/10/25 10:03:07 ERROR Executor: Exception in task 0.0 in stage 7.0     (TID 6)
java.lang.ClassCastException: java.lang.Long cannot be cast to      java.lang.String
at org.apache.spark.sql.Row$class.getString(Row.scala:249)
at org.apache.spark.sql.catalyst.expressions.GenericRow.getString(rows.scala:191)
at UIT_LDA_ONLINE.LDAOnline$2.call(LDAOnline.java:88)
at UIT_LDA_ONLINE.LDAOnline$2.call(LDAOnline.java:1)
at org.apache.spark.api.java.JavaPairRDD$$anonfun$pairFunToScalaFun$1.apply(JavaPairRDD.scala:1030)
at org.apache.spark.api.java.JavaPairRDD$$anonfun$pairFunToScalaFun$1.apply(JavaPairRDD.scala:1030)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
at org.apache.spark.storage.MemoryStore.unrollSafely(MemoryStore.scala:278)
at org.apache.spark.CacheManager.putInBlockManager(CacheManager.scala:171)
at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:78)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:262)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:297)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
at org.apache.spark.scheduler.Task.run(Task.scala:88)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
15/10/25 10:03:07 WARN TaskSetManager: Lost task 0.0 in stage 7.0 (TID 6, localhost): java.lang.ClassCastException: java.lang.Long cannot be cast to java.lang.String
at org.apache.spark.sql.Row$class.getString(Row.scala:249)
at org.apache.spark.sql.catalyst.expressions.GenericRow.getString(rows.scala:191)
at UIT_LDA_ONLINE.LDAOnline$2.call(LDAOnline.java:88)
at UIT_LDA_ONLINE.LDAOnline$2.call(LDAOnline.java:1)
at org.apache.spark.api.java.JavaPairRDD$$anonfun$pairFunToScalaFun$1.apply(JavaPairRDD.scala:1030)
at org.apache.spark.api.java.JavaPairRDD$$anonfun$pairFunToScalaFun$1.apply(JavaPairRDD.scala:1030)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
at org.apache.spark.storage.MemoryStore.unrollSafely(MemoryStore.scala:278)
at org.apache.spark.CacheManager.putInBlockManager(CacheManager.scala:171)
at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:78)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:262)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:297)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:264)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
at org.apache.spark.scheduler.Task.run(Task.scala:88)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

共有1个答案

陆洲

2023-03-14

现在我们有了错误堆栈，下面是错误：

您试图从该行获取字符串，而您的字段很长，因此需要将row.getstring(0)替换为row.getlong(0)。

一旦您纠正了这一点，您将遇到来自相同类型但不同级别的其他错误，我可以通过提供的信息指出这些错误，但如果您应用以下方法，您将能够解决这些错误：

类似资料：

将Pandas GroupBy输出从Series转换为DataFrame

问题内容：我从这样的输入数据开始打印时显示为：分组非常简单：打印产生一个对象：但是我最终想要的是另一个DataFrame对象，该对象包含GroupBy对象中的所有行。换句话说，我想得到以下结果：我在pandas文档中看不到如何完成此操作。任何提示都将受到欢迎。问题答案：这是一个。但是，它具有层次结构索引：也许你想要这样的东西？或类似的东西：
将dataframe中的列从int转换为string

我在pandas中有一个数据帧，它混合了int和str数据列。我想先连接dataframe中的列。为此，我必须将列转换为。我试着做了如下工作：或但在这两种情况下，它都不起作用，我得到一个错误，说“不能连接'str'和'int'对象”。将两个列串联在一起可以很好地工作。
将Pandas GroupBy输出从Series转换为DataFrame
Python-JSON转换为Pandas DataFrame

问题内容： c 问题答案：我找到了一个快速便捷的解决方案，以解决我想要使用的问题。这提供了一个很好的扁平化数据框架，其中包含我从I获得的json数据。
SQLAlchemy ORM转换为Pandas DataFrame

问题内容：这个主题在这里或其他地方已经有一段时间没有得到解决了。是否有将SQLAlchemy转换为pandas DataFrame的解决方案？ Pandas可以使用，但是这需要使用原始SQL。我有两个要避免的原因：1）我已经使用ORM拥有了一切（本身就是一个很好的理由），并且2）我正在使用python列表作为查询的一部分（例如：模型类在哪里）并且是列表）。这等效于SQL 。有什么可能吗？问题
将Pandas Series转换为DataFrame

问题内容：我有一个熊猫系列科幻小说：我想将其转换为以下DataFrame：我找到了一种方法，但是我怀疑这是更有效的方法：问题答案：无需创建2个临时df，您可以使用DataFrame构造函数将它们作为参数传递给dict中：有很多方法可以构建df，请参阅文档

从DataFrame转换为javapairrdd

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档