当前位置：首页 > 面试题库 >

u'\ ufeff'在Python字符串中

罗昊明

2023-03-14

问题内容：

我收到以下错误消息：

UnicodeEncodeError: 'ascii' codec can't encode character u'\ufeff' in position 155: ordinal not in range(128)

不确定是什么u'\ufeff'，在我进行网页抓取时会显示。我该如何纠正这种情况？该.replace()字符串的方法不能进行这项工作。

问题答案：

Unicode字符U+FEFF是字节顺序标记或BOM，用于区分大尾数UTF-16编码之间的区别。如果您使用正确的编解码器解码网页，Python会为您删除它。例子：

#!python2
#coding: utf8
u = u'ABC'
e8 = u.encode('utf-8')        # encode without BOM
e8s = u.encode('utf-8-sig')   # encode with BOM
e16 = u.encode('utf-16')      # encode with BOM
e16le = u.encode('utf-16le')  # encode without BOM
e16be = u.encode('utf-16be')  # encode without BOM
print 'utf-8     %r' % e8
print 'utf-8-sig %r' % e8s
print 'utf-16    %r' % e16
print 'utf-16le  %r' % e16le
print 'utf-16be  %r' % e16be
print
print 'utf-8  w/ BOM decoded with utf-8     %r' % e8s.decode('utf-8')
print 'utf-8  w/ BOM decoded with utf-8-sig %r' % e8s.decode('utf-8-sig')
print 'utf-16 w/ BOM decoded with utf-16    %r' % e16.decode('utf-16')
print 'utf-16 w/ BOM decoded with utf-16le  %r' % e16.decode('utf-16le')

请注意，这EF BB BF是UTF-8编码的BOM。对于UTF-8，它不是必需的，而仅用作签名（通常在Windows上）。

输出：

utf-8     'ABC'
utf-8-sig '\xef\xbb\xbfABC'
utf-16    '\xff\xfeA\x00B\x00C\x00'    # Adds BOM and encodes using native processor endian-ness.
utf-16le  'A\x00B\x00C\x00'
utf-16be  '\x00A\x00B\x00C'

utf-8  w/ BOM decoded with utf-8     u'\ufeffABC'    # doesn't remove BOM if present.
utf-8  w/ BOM decoded with utf-8-sig u'ABC'          # removes BOM if present.
utf-16 w/ BOM decoded with utf-16    u'ABC'          # *requires* BOM to be present.
utf-16 w/ BOM decoded with utf-16le  u'\ufeffABC'    # doesn't remove BOM if present.

请注意，utf-16编解码器要求存在BOM表，否则Python将不知道数据是大端还是小端。

类似资料：

在Python中打印字符串会在字符串之前打印'u'吗？

问题内容：打印列表中元素之前的“ u”？我没有在代码中键入u。当我运行此命令时，它将打印列表，但其格式如下：那些“ u”来自列表中每个元素的位置？问题答案：我认为您实际上对此感到惊讶的是，打印单个字符串与打印字符串列表的功能不同–无论是否为Unicode，这都是事实：即使没有，您也有多余的引号，更不用说反斜杠转义了。而且，如果您使用字节字符串而不是字符串尝试相同的操作，那么您仍然会使用
simplexml\u load\u字符串未解析我的XML字符串。字符集问题？

我使用下面的PHP代码从NOAA的潮汐报告站API读取XML数据：不幸的是，我最终看到它显示了这个：对象（SimpleXMLElement）#246（0）{} 在我看来，XML的格式非常好——为什么不进行解析呢？通过查看另一个问题（Simplexml_load_string（）解析错误失败），我认为可能是头的问题-http调用确实返回了一个字符集值“ISO-8859-1”。但是添加调用似乎并没
Python 处理带有 \u 的字符串操作

本文向大家介绍Python 处理带有 \u 的字符串操作，包括了Python 处理带有 \u 的字符串操作的使用技巧和注意事项，需要的朋友参考一下最近遇到一个头疼的问题，用socket接收到一个字符串格式如下： {“trade_status”: {“desc”: “\u30106\u3011 - \u8d22\u52a1\u7ed3\u7b97\u5df2\u5b8c\u6210 “}}/en
python 转换 Javascript %u 字符串为python unicode的代码

本文向大家介绍python 转换 Javascript %u 字符串为python unicode的代码，包括了python 转换 Javascript %u 字符串为python unicode的代码的使用技巧和注意事项，需要的朋友参考一下 web采集的数据为 %u6B63%u5F0F%u4EBA%u5458，需要读取并转换为python对象，想了下不调用Javascript去eval，只能自己
FreeMarker\u TemplateModelException扩展\u哈希字符串

我在freemarker中遇到了这个错误，它工作正常，但现在给我这个，我使用的是SpringStarterIO的最新版本。我认为不需要更新。我无法从我的代码中看出这是一个Bug或错误。错误免费标记。核心_TemplateModelException:读取现有子变量“daysOfTheWeek”时出错；查看原因异常！包含值的类型是：扩展的_散列字符串（com.mikedev.HRMSystem.
Python-在Python中反转字符串

问题内容： Python的str对象没有内置的反向函数。实现这种方法的最佳方法是什么？如果提供一个非常简洁的答案，请详细说明其效率。例如，str对象是否转换为其他对象等。问题答案：怎么样：这是扩展切片语法。它的工作方式是通过保留和并指定步骤来反转字符串。

相关阅读

字符串在Python中的endswith()在Python中旋转字符串如何在Python中获取字符串的子字符串？用Python在字符串和整数中制成字符串 Python-字符串值前面的“ u”符号是什么意思？

相关文章

Python去除字符串中空格 Python字符串大小写转换 Python join()合并字符串方法 Python split()分割字符串方法 Python index()检测字符串中是否包含某子串

相关问答

python中字符串的真值 python - Python字符串截取问题？Python中的字符串更改时，字符串id不会更改。向字符串添加字符的复杂性在多行中连接python中的字符串在python中验证用户输入字符串

相关工具

U++U-Boot Serv-U U-Prove u-orm

相关文档

格式化字符串漏洞利用 Python Cookbook 中文版 Python 中文教程 Violent Python 中文版 Python v2.4 中文手册