用于LogisticRegression的Spark MLLib TFIDF实现

通和裕

2023-03-14

问题内容：

我尝试使用Spark
1.1.0提供的新的TFIDF算法。我正在用Java写MLLib的工作，但我不知道如何使TFIDF实现有效。由于某种原因，IDFModel仅接受JavaRDD作为方法转换的输入，而不接受简单的Vector。
如何使用给定的类为我的LabledPoints建模TFIDF向量？

注意：文档行的格式为[标签；文本]

到目前为止，这里是我的代码：

        // 1.) Load the documents
        JavaRDD<String> data = sc.textFile("/home/johnny/data.data.new");

        // 2.) Hash all documents
        HashingTF tf = new HashingTF();
        JavaRDD<Tuple2<Double, Vector>> tupleData = data.map(new Function<String, Tuple2<Double, Vector>>() {
            @Override
            public Tuple2<Double, Vector> call(String v1) throws Exception {
                String[] data = v1.split(";");
                List<String> myList = Arrays.asList(data[1].split(" "));
                return new Tuple2<Double, Vector>(Double.parseDouble(data[0]), tf.transform(myList));
            }
        });

        tupleData.cache();

        // 3.) Create a flat RDD with all vectors
        JavaRDD<Vector> hashedData = tupleData.map(new Function<Tuple2<Double,Vector>, Vector>() {
            @Override
            public Vector call(Tuple2<Double, Vector> v1) throws Exception {
                return v1._2;
            }
        });

        // 4.) Create a IDFModel out of our flat vector RDD
        IDFModel idfModel = new IDF().fit(hashedData);

        // 5.) Create Labledpoint RDD with TFIDF
        ???

*肖恩·欧文（Sean Owen）的 *解决方案：

        // 1.) Load the documents
        JavaRDD<String> data = sc.textFile("/home/johnny/data.data.new");

        // 2.) Hash all documents
        HashingTF tf = new HashingTF();
        JavaRDD<LabeledPoint> tupleData = data.map(v1 -> {
                String[] datas = v1.split(";");
                List<String> myList = Arrays.asList(datas[1].split(" "));
                return new LabeledPoint(Double.parseDouble(datas[0]), tf.transform(myList));
        }); 
        // 3.) Create a flat RDD with all vectors
        JavaRDD<Vector> hashedData = tupleData.map(label -> label.features());
        // 4.) Create a IDFModel out of our flat vector RDD
        IDFModel idfModel = new IDF().fit(hashedData);
        // 5.) Create tfidf RDD
        JavaRDD<Vector> idf = idfModel.transform(hashedData);
        // 6.) Create Labledpoint RDD
        JavaRDD<LabeledPoint> idfTransformed = idf.zip(tupleData).map(t -> {
            return new LabeledPoint(t._2.label(), t._1);
        });

问题答案：

IDFModel.transform()如您所见，接受JavaRDD或RDD的Vector。在单个上计算模型没有任何意义Vector，所以这不是您想要的吗？

我假设您正在使用Java，因此您想将此应用到JavaRDD<LabeledPoint>。LabeledPoint包含Vector和标签。IDF不是分类器或回归器，因此不需要标签。您可以map一堆LabeledPoint来提取它们Vector。

但是你已经有了一个JavaRDD<Vector>以上。TF-
IDF仅仅是一种基于语料库中的词频将词映射到实值特征的方法。它还不输出标签。也许您的意思是想从TF-IDF衍生的特征向量以及其他一些已有的标签中开发分类器？

也许这可以解决问题，但否则，您必须极大地阐明您正在尝试使用TF-IDF实现的目标。

用于LogisticRegression的Spark MLLib TFIDF实现

相关阅读

相关文章

相关问答

相关工具

相关文档