Python 3-编码/解码vs字节/字符串

易宏阔

2023-03-14

问题内容：

我是python3的新手，来自python2，并且我对unicode基本概念有些困惑。我读了一些不错的文章，使事情变得更加清楚，但是我看到python
3上有2种方法可以处理编码和解码，而且我不确定要使用哪种方法。

因此，Python 3中的想法是，每个字符串都是unicode，并且可以按字节进行编码和存储，或者可以再次解码回unicode字符串。

但是有两种方法可以做到：
u'something'.encode('utf-8')会生成b'bytes'，但是会生成bytes(u'something', 'utf-8')。
并且b'bytes'.decode('utf-8')似乎与做相同的事情str(b'', 'utf-8')。

现在我的问题是，为什么有2种方法似乎做同样的事情，并且要么比其他方法好（为什么？）？我一直在尝试在google上找到答案，但是没有运气。

>>> original = '27岁少妇生孩子后变老'
>>> type(original)
<class 'str'>
>>> encoded = original.encode('utf-8')
>>> print(encoded)
b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'
>>> type(encoded)
<class 'bytes'>
>>> encoded2 = bytes(original, 'utf-8')
>>> print(encoded2)
b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'
>>> type(encoded2)
<class 'bytes'>
>>> print(encoded+encoded2)
b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x8127\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'
>>> decoded = encoded.decode('utf-8')
>>> print(decoded)
27岁少妇生孩子后变老
>>> decoded2 = str(encoded2, 'utf-8')
>>> print(decoded2)
27岁少妇生孩子后变老
>>> type(decoded)
<class 'str'>
>>> type(decoded2)
<class 'str'>
>>> print(str(b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81', 'utf-8'))
27岁少妇生孩子后变老
>>> print(b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'.decode('utf-8'))
27岁少妇生孩子后变老

问题答案：

两者都不比另一个更好，它们做的完全相同。但是，使用.encode()和.decode()是更常见的方法。它还与Python 2兼容。

Python 3-编码/解码vs字节/字符串

相关阅读

相关文章

相关问答

相关工具

相关文档