弯引号引起Java Scanner hasNextLine（）为假-为什么？

谷德本

2023-03-14

问题内容：

我遇到了一个问题，即使它可以与他人正常工作，也无法使java.util.Scanner读取保存在记事本中的文本文件。基本上，当它尝试读取问题文件时，它完全是空手的-
hasNextLine（）为false，缓冲区为空，等等。我将其范围缩小到一个事实，即如果存在，它甚至不会读取第一行是文件中 任何地方
的卷曲报价。没有异常被抛出。请注意，同一文件上的BufferedReader没问题。

try {        
    int count = 0;
    Scanner scanner = new Scanner(new File("C:/myfile.txt"));

    while (scanner.hasNextLine()) {
        count++;
        scanner.nextLine();
    }

    scanner.close();
    System.out.print(count);

    count = 0;
    BufferedReader reader = new BufferedReader(new FileReader("C:/myfile.txt"));

    while (reader.readLine() != null) {
        count++;
    }

    reader.close();
    System.out.print(count);
}
catch(IOException e) {
    e.printStackTrace();
}

上面的代码读取一个只包含一个单引号的文件，然后输出“ 01”。在Google上进行的搜索使我尝试这样做：

Scanner scanner = new Scanner(new File("C:/myfile.txt"), "ISO-8859-1");

这使它起作用（即，它打印出“ 11”）。我还注意到，如果我进入记事本并执行另存为…，底部的默认编码为“ ANSI”。如果将其更改为“
UTF-8”并保存文件，则扫描仪（无编码）也可以使用。如果我告诉扫描仪“
UTF-8”，那么可以理解的是，仅当我另存为UTF-8时，它才能工作，但是即使我将其另存为“ ANSI”，“ ISO-8859-1”似乎也能使它工作。

因此，我知道它与文件编码有关，但是问题是我对文件编码一无所知。我对“
ISO-8859-1”的含义的了解非常模糊；为什么无论我如何保存文件，它都能正常工作？为什么BufferedReader不管如何工作？

编辑：

下面的链接/评论确实帮助我指出了正确的方向！我想我已经知道了。

首先，在记事本中：

“ ANSI”是CP1252
“ Unicode”是UTF-16LE
“ UTF-8”是…好吧，UTF-8

用十六进制表示的撇号表示为：

CP1252：92
UTF-16LE：1920年
UTF-8：E2 80 99

根据Charset.defaultCharset（），Java在我的系统上使用的默认编码为UTF-8。因此，当我将文件保存为UTF-8时，扫描仪便知道会发生什么。但是，当我将文件保存在CP1252中时，一旦它打到“
92”，它就会窒息，因为这不是用该编码表示字符的有效方法。只要文件中没有这样的字符，它就可以正常工作-“ hello
world”的十六进制在CP1252和UTF-8中恰好相同，并且不会引起问题。

UTF-8不适用于UTF-16文件，因为无论文件中包含什么字符，它都不知道如何处理字节顺序标记（“ FFFE”）。

另一方面，当我将扫描仪设置为CP1252或ISO-8859-1时，它的容忍度要高得多。请注意，它不一定 正确地
解释字符，但是没有什么可以阻止它识别文件中的行并循环浏览。

至于为什么扫描仪有问题，但FileReader /
BufferedReader没有问题，我想这是因为扫描仪需要标记文件，即。解释字符，以便可以识别空格和其他模式，因此在出现无法识别的内容时会窒息。读者不需要这样做。它需要识别的只是换行符。

问题答案：

如果在创建扫描仪时未指定编码，它将尝试根据字节顺序标记（BOM）（文件的前几个字节）来区分编码。如果没有，则默认为操作系统使用的默认值。由于您使用的是Windows，因此默认值为cp-1252。似乎记事本正在使用与ISO-12859类似但与cp-1252不同的ISO-8859-1保存文本文件。有关更多详细信息，请参见此链接：

http://www.i18nqa.com/debug/table-iso8859-1-vs-
windows-1252.html

当将其另存为UTF-8时，它可能会将UTF-8 BOM放置在文件的开头，并且扫描程序可以在其上进行拾取。

如果您想更多地了解BOM，请在Wikipedia中查找它-这篇文章很好。您也可以下载PSPad并以十六进制模式打开文本文件以查看各个字节。希望有帮助:)

弯引号引起Java Scanner hasNextLine（）为假-为什么？

相关阅读

相关文章

相关问答

相关工具

相关文档