当前位置: 首页 > 知识库问答 >
问题:

如何在Spark Java中遍历/迭代数据集?

琴元凯
2023-03-14

我试图遍历一个数据集来进行一些字符串相似性计算,如Jaro winkler或余弦相似性。我将数据集转换为行列表,然后用for语句遍历,这不是有效的spark方法。因此,我期待在Spark中找到更好的方法。

public class sample {

    public static void main(String[] args) {
        JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("Example").setMaster("local[*]"));
        SQLContext sqlContext = new SQLContext(sc);
        SparkSession spark = SparkSession.builder().appName("JavaTokenizerExample").getOrCreate();

        List<Row> data = Arrays.asList(RowFactory.create("Mysore","Mysuru"),
                RowFactory.create("Name","FirstName"));
        StructType schema = new StructType(
                new StructField[] { new StructField("Word1", DataTypes.StringType, true, Metadata.empty()),
                        new StructField("Word2", DataTypes.StringType, true, Metadata.empty()) });

        Dataset<Row> oldDF = spark.createDataFrame(data, schema);
        oldDF.show();
        List<Row> rowslist = oldDF.collectAsList(); 
    }
}

我发现了许多我不清楚的JavaRDD示例。数据集示例将对我有很大帮助。

共有2个答案

沈永贞
2023-03-14

对于不支持lambda表达式的旧java JDK,导入后可以使用以下内容:

导入组织。阿帕奇。火花应用程序编程接口。Java语言作用空隙函数;

yourDataSet.toJavaRDD().foreach(new VoidFunction<Row>() {
        public void call(Row r) throws Exception {
            System.out.println(r.getAs("your column name here"));
        }
    });
殷承恩
2023-03-14

你可以使用org。阿帕奇。火花应用程序编程接口。Java语言作用ForeachFunction如下所示。

oldDF.foreach((ForeachFunction<Row>) row -> System.out.println(row));
 类似资料:
  • 本文向大家介绍Java中迭代遍历数组,包括了Java中迭代遍历数组的使用技巧和注意事项,需要的朋友参考一下 要遍历Java中的数组,只需使用for循环即可。循环应一直到数组的长度才能显示所有元素。 示例 现在让我们来看一个遍历数组的示例- 输出结果 示例 我们还可以使用for循环遍历数组- 输出结果

  • 所以我在研究树遍历算法。例如,在K-d树遍历中,我们的目标是遍历节点直至叶子。这与其说是一个树搜索,不如说是一个根到叶的遍历。 在这种情况下,递归解决方案就足够了。但是,在C等语言中,递归调用函数需要将值推送到堆栈上,并在堆栈帧之间跳跃等。标准的递归方法类似于: 因此,考虑到二叉树有一个明确的上界(我相信这也可以扩展到其他树类型),以迭代方式执行此遍历是否更有效: 二叉树的最大高度是它的节点数,而

  • 本文向大家介绍Java 如何绕过迭代器遍历时的数据修改异常,包括了Java 如何绕过迭代器遍历时的数据修改异常的使用技巧和注意事项,需要的朋友参考一下 前言 既然是绕过迭代器遍历时的数据修改异常,那么有必要先看一下是什么样的异常。如果在集合的迭代器遍历时尝试更新集合中的数据,比如像下面这样,我想输出 Hello,World,Java,迭代时却发现多了一个 C++ 元素,如果直接删除掉的话。 那么我

  • 问题 你想遍历一个可迭代对象中的所有元素,但是却不想使用for循环。 解决方案 为了手动的遍历可迭代对象,使用 next() 函数并在代码中捕获 StopIteration 异常。 比如,下面的例子手动读取一个文件中的所有行: def manual_iter(): with open('/etc/passwd') as f: try: while T

  • 本文向大家介绍Python遍历整个可迭代,包括了Python遍历整个可迭代的使用技巧和注意事项,需要的朋友参考一下 示例            

  • 问题内容: 如何在jquery中迭代json数据。 问题答案: 您可以这样使用: