当前位置: 首页 > 知识库问答 >
问题:

bufferedReader在K均值聚类文件提取中的应用

袁翰池
2023-03-14

我有一个标题和两个坐标x和y的数据集。我只是好奇bufferedReader在Java中是如何工作的,下面的代码是我从Google获得的,用于在字符串变量中分别获得头和数据。

File file = new File(fileName);
        fileReader = new FileReader(file);
        bufferedReader = new BufferedReader(fileReader);
        @SuppressWarnings("unused")
        String header = bufferedReader.readLine();
        String line = "";
        while(( line = bufferedReader.readLine() ) != null ){
            String[] dataArr = line.split(STR_DELIM);
...
...
...

在使用R进行统计时,我们需要纠正一个行代码,其中我们提到Header=True,它自动从第2行开始读取。

谢谢--

共有1个答案

宇文飞羽
2023-03-14

对readline()方法的每次调用都将返回以'\n'(对于unix)或'\r\n'(对于windows)结尾的字符串。它将一直读到流的结尾,即直到文件中有行为止。我想这回答了您的第一个问题。回答了您的第二个问题,每次对readLine()的调用都将从输入流(文件)返回连续的行。如果没有更多的行,则返回null。BufferedReader与FileReader相同,具有FileReader中缺少的额外缓冲功能。顺便说一句,如果您正在实现K-means算法,我建议您看看MATLAB中的kmeans()函数。使用MATLAB可以用不到5行代码实现kmeans算法。另外,您还可以在MATLAB中使用importfile()方法读取输入数据

 类似资料:
  • $k$均值聚类算法(k-means clustering algorithm) 在聚类的问题中,我们得到了一组训练样本集 ${x^{(1)},...,x^{(m)}}$,然后想要把这些样本划分成若干个相关的“类群(clusters)”。其中的 $x^{(i)}\in R^n$,而并未给出分类标签 $y^{(i)}$ 。所以这就是一个无监督学习的问题了。 $K$ 均值聚类算法如下所示: 随机初始化(

  • 目标 在本章中,我们将了解K-Means聚类的概念,其工作原理等。 理论 我们将用一个常用的例子来处理这个问题。 T-shirt尺寸问题 考虑一家公司,该公司将向市场发布新型号的T恤。显然,他们将不得不制造不同尺寸的模型,以满足各种规模的人们的需求。因此,该公司会记录人们的身高和体重数据,并将其绘制到图形上,如下所示: 公司无法制作所有尺寸的T恤。取而代之的是,他们将人划分为小,中和大,并仅制造这

  • 聚类 聚类,简单来说,就是将一个庞杂数据集中具有相似特征的数据自动归类到一起,称为一个簇,簇内的对象越相似,聚类的效果越好。它是一种无监督的学习(Unsupervised Learning)方法,不需要预先标注好的训练集。聚类与分类最大的区别就是分类的目标事先已知,例如猫狗识别,你在分类之前已经预先知道要将它分为猫、狗两个种类;而在你聚类之前,你对你的目标是未知的,同样以动物为例,对于一个动物集来

  • 该向量包含X、Y坐标,即成对的双打。我想为每个用户ID标识坐标集群,所以我在RDD上进行映射,并尝试为每个组运行k-means: 但是当我运行这个时,我从一行中得到了一个NPE: 问题是,我必须将coords转换为RDD来进行K-Means操作。

  • 我已经实现了一个函数,在运行K-Means聚类算法后,找到距离每个质心最近的数据点。我想知道是否有一个函数可以让我找到距离每个质心最近的M个点。

  • OpenCV中的K-Means聚类 作者|OpenCV-Python Tutorials 编译|Vincent 来源|OpenCV-Python Tutorials 目标 了解如何在OpenCV中使用cv.kmeans()函数进行数据聚类 理解参数 输入参数 sample:它应该是np.float32数据类型,并且每个功能都应该放在单个列中。 nclusters(K):结束条件所需的簇数 crit