当前位置: 首页 > 面试题库 >

Java自动检测字符编码

钱展
2023-03-14
问题内容

似乎是一个相当热门的问题,但是我还没有找到解决方案。也许是因为它有 很多
风味。虽然在这里。我正在尝试读取一些用逗号分隔的文件(有时,分隔符可能比逗号更具独特性,但现在就可以使用逗号了)。

这些文件本应在整个行业中标准化,但是最近我们看到了许多不同类型的字符集文件。我希望能够设置BufferedReader来对此进行补偿。

执行此操作并检测是否成功的标准方法是什么?

我对这种方法的第一个想法是循环遍历字符集simple-> complex,直到我可以无例外地读取文件。虽然不完全理想…

感谢您的关注。


问题答案:

Mozilla的 通用
图表应该是那里的有效检测器。juniversalchardet是它的java端口。还有一个端口。阅读此SO以获得更多信息字符编码检测算法



 类似资料:
  • 问题内容: 我正在寻找一种检测文档中字符集的方法。我一直在这里阅读Mozilla字符集检测实现: 通用字符集检测 我还找到了一个名为jCharDet的Java实现: JCharDet 这两个都是基于使用一组静态数据进行的研究。我想知道的是,是否有人成功使用了其他实现?您是否采用了自己的方法,如果是的话,您用来检测字符集的算法是什么? 任何帮助,将不胜感激。我既不是通过Google寻找现有方法的清单

  • 问题内容: 我目前正在开发一个用于验证和解析CSV文件的应用程序。CSV文件必须以UTF-8编码,尽管有时我们会以错误的编码获得文件。CSV文件很可能包含德语字母的特殊字符(Ä,Ö,Ü,ß),因为CSV文件中的大多数文本都是德语。 对于验证器,我需要确保文件是UTF-8编码的。只要不存在特殊字符,解析就很可能没有问题。 到目前为止,我尝试将文件读取为字节并使用一些库来检测(或猜测)编码。我尝试了此

  • 问题内容: 我读取了大约1000个文件名,其中一些文件以UTF8编码,而某些文件为CP1252。 我想将它们全部解码为Unicode,以便在脚本中进行进一步处理。有没有一种方法可以使源编码正确解码为Unicode? 例: 问题答案: 如果您的文件位于和中,则有一种简单的方法。 否则,有一个字符集检测库。 Python-检测字符集并转换为utf-8 https://pypi.python.org/p

  • 脚本例子一: !include "MUI.nsh" OutFile "S32.exe" !define MUI_PAGE_CUSTOMFUNCTION_PRE ComponentsPage1Pre !insertmacro MUI_PAGE_COMPONENTS Sectiongroup "完整独立程序" SecOL3 Section /o "QQ直播程序" Sec60 Sectio

  • 问题内容: 使用Java如何检测字符串是否包含汉字? 您能帮我解决问题吗? 问题答案: 现在可以告诉我们代码点是CJKV(中文,日文,韩文和越南文)表意文字。 最近使用的是Character.UnicodeScript.HAN。 所以: 或在Java 8中:

  • 问题内容: 假设我有一个包含Ü的字符串。我将如何找到所有这些unicode字符?我应该测试他们的代码吗?我该怎么做? 例如,给定字符串“AÜXÜ”,我想将其转换为“ AYXY”。我想对其他unicode字符执行相同的操作,并且我不希望将它们存储在某种翻译图中。 问题答案: “ unicode字符”的定义含糊不清,但是将被视为表示标准ISO 8859字符集 未涵盖的UTF-8 字符。如果您的情况是这