当前位置：首页 > 面试题库 >

将UTF-16转换为UTF-8并删除BOM？

段哲圣

2023-03-14

问题内容：

我们有一个数据输入人员，他在Windows上使用UTF-16编码，并且希望拥有utf-8并删除BOM。utf-8转换有效，但BOM仍然存在。我将如何删除？这是我目前拥有的：

batch_3={'src':'/Users/jt/src','dest':'/Users/jt/dest/'}
batches=[batch_3]

for b in batches:
  s_files=os.listdir(b['src'])
  for file_name in s_files:
    ff_name = os.path.join(b['src'], file_name)  
    if (os.path.isfile(ff_name) and ff_name.endswith('.json')):
      print ff_name
      target_file_name=os.path.join(b['dest'], file_name)
      BLOCKSIZE = 1048576
      with codecs.open(ff_name, "r", "utf-16-le") as source_file:
        with codecs.open(target_file_name, "w+", "utf-8") as target_file:
          while True:
            contents = source_file.read(BLOCKSIZE)
            if not contents:
              break
            target_file.write(contents)

如果我使用hexdump -CI，请参阅：

Wed Jan 11$ hexdump -C svy-m-317.json 
00000000  ef bb bf 7b 0d 0a 20 20  20 20 22 6e 61 6d 65 22  |...{..    "name"|
00000010  3a 22 53 61 76 6f 72 79  20 4d 61 6c 69 62 75 2d  |:"Savory Malibu-|

在结果文件中。如何删除物料清单？

谢谢

问题答案：

只需使用str.decode和str.encode：

with open(ff_name, 'rb') as source_file:
  with open(target_file_name, 'w+b') as dest_file:
    contents = source_file.read()
    dest_file.write(contents.decode('utf-16').encode('utf-8'))

str.decode 将为您摆脱BOM表（并推断出字节序）。

类似资料：

用Java将UTF-16转换为ASCII

问题内容：一直以来都忽略了它，我目前正在强迫自己学习有关Java中的unicode的更多信息。我需要做一个关于将UTF-16字符串转换为8位ASCII的练习。有人可以启发我如何用Java做到这一点吗？我知道您无法用ASCII表示所有可能的unicode值，因此在这种情况下，无论如何我都希望仅添加超过0xFF的代码（坏数据也应该仅以静默方式添加）。谢谢！问题答案：这个怎么样：对于大型字符串
将UTF-8转换为ANSI（windows-1252）

我试图保存一个字符串在希伯来文文件，同时有文件ANSI编码。恐怕所有的尝试都失败了。 PHP文件本身是UTF-8 这是我正在尝试的代码：由于某种原因，返回false。另一次尝试是：这返回一个空字符串。当这不起作用时，将输出字符集更改为Windows-1255的工作。所以函数本身工作，但由于某种原因，它不转换为1252。我运行这个函数之前和之后的和打印的结果在图标之前编码是UTF-8，在图
web3.utils.utf8ToHex - utf-8字符串转换为16进制

返回指定UTF-8字符串的16进制表示。调用： web3.utils.utf8ToHex(string) web3.utils.stringToHex(string) // 别名 web3.utils.fromUtf8(string) // 别名，已弃用参数： string - String: ·UTF-8字符串返回值： String: 16进制字符串示例代码： web3.utils.u
web3.utils.hexToUtf8 - 16进制字符串转换为utf-8

返回指定16进制值的UTF-8字符串表示。调用： web3.utils.hexToUtf8(hex) web3.utils.hexToString(hex) // 别名 web3.utils.toUtf8(hex) // 别名，已弃用参数： hex - String: 16进制字符串返回值： String: UTF-8字符串示例代码： web3.utils.hexToUtf8('0x49
将json-（utf-8）转换为json（unicode转义）

嗨，我在Python中将utf-8 json转换成unicode escape json时遇到了一些问题我知道如何将utf-8.txt转换为unicodeescape.txt 但是，我在Python中使用json模块时遇到了上面应用的问题，如下所示它保存得很好，但是，当涉及到json中的双引号（“）时，它会自动添加双反斜杠（\\），因此unicode-esc.json文件在调用python脚本
Node.js将字符串转换为UTF-8

问题内容：从我的数据库即时通讯获取以下字符串：它应该说的是：我试图像这样将其转换为utf-8：但是仍然是同样的问题。有任何想法吗？问题答案：使用npm中的utf8模块对字符串进行编码/解码。安装：在浏览器中：在Node.js中： API：编码：将任何给定的JavaScript字符串（字符串）编码为UTF-8，并返回该字符串的UTF-8编码版本。如果输入字符串包含非标量值（即

相关阅读

将Shift_JIS格式转换为UTF-8格式 PHP：将Unicode代码点转换为UTF-8 使用UTF-8将Excel（XLS）转换为CSV UTF-8和UTF-16之间的区别？在Java中将UTF-8转换为ISO-8859-1

相关文章

SQLite 删除表 Oracle删除列 Oracle删除表 OrientDB删除边 OrientDB删除类

相关问答

从双UTF-8到UTF-8（或从UTF-8到ANSI）的“原始”转换使用iconv从UTF-16BE转换为不带BOM的UTF-8 使用icu库将UTF-8转换为UCS-2 将多个CSV文件转换为UTF-8编码将DOM元素编码从CP1251转换为UTF-8

相关工具

UTF-8 CPP 汉字转换为拼音录音并把caf转为mp3 16进制颜色与UIColor互转常用16种视图切换动画

相关文档

Java 8 简明教程 Java 8 介绍性教程 iOS 8 人机交互指南 Erlang 并发编程 C++并发编程