问题：

UnicodeDecodeError:“ascii”编解码器无法解码位置中的字节0xc3

贾烨

2023-03-14

当我试图从nltk中的标记文本中提取一些模式时，我有错误：UnicodeDecodeError：'ascii'codec不能解码位置79的字节0xc3：序数不在范围内（128）。首先，我没有这个错误，但我得到它后安装了一些软件包。

这是代码：

# -*- coding: utf-8 -*-
import codecs
import sys
import re
import sys
import nltk
from nltk.corpus import *

k =  nltk.corpus.brown.tagged_words('myfile')
for (w1,t1), (w2,t2) in nltk.bigrams(k):
    if t1 == 'NN' and  t2 == 'AJ':
       print w1, w2

这是代码的全部输出。

Traceback (most recent call last):
File "/home/fathi/egfe.py", line 12, in <module>
for (w1,t1), (w2,t2) in nltk.bigrams(k):
File "/usr/local/lib/python2.7/dist-packages/nltk/util.py", line 442, in bigrams
for item in ngrams(sequence, 2, **kwargs):
File "/usr/local/lib/python2.7/dist-packages/nltk/util.py", line 419, in ngrams
history.append(next(sequence))
File "/usr/local/lib/python2.7/dist-packages/nltk/corpus/reader/util.py", line 291, in  iterate_from
tokens = self.read_block(self._stream)
File "/usr/local/lib/python2.7/dist-packages/nltk/corpus/reader/tagged.py", line 241, in read_block
for para_str in self._para_block_reader(stream):
File "/usr/local/lib/python2.7/dist-packages/nltk/corpus/reader/util.py", line 564, in read_blankline_block
line = stream.readline()
File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 1095, in readline
new_chars = self._read(readsize)
File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 1322, in _read
chars, bytes_decoded = self._incr_decode(bytes)
File "/usr/local/lib/python2.7/dist-packages/nltk/data.py", line 1352, in _incr_decode
return self.decode(bytes, 'strict')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 79: ordinal not in range(128)

共有1个答案

冯良才

2023-03-14

问题是ntlk版本与python版本不兼容，所以它需要一个旧版本的nltk工具包。

类似资料：

UnicodeDecodeError：'ascii'编解码器无法解码位置1中的字节0xef

我在尝试将字符串编码为UTF-8时遇到了一些问题。我尝试过很多方法，包括使用和，但我得到了错误： UnicodeDecodeError:“ascii”编解码器无法解码位置1中的字节0xef：序号不在范围内（128）这是我的字符串：我不知道出了什么问题，知道吗？编辑：问题是打印字符串不能正确显示。此外，当我试图转换它时，这个错误：
Python-如何解决：“ UnicodeDecodeError：'ascii'编解码器无法解码字节”

问题内容：如何解决？在其他基于python的静态博客应用中，中文帖子可以成功发布。像这个程序：http : //github.com/vrypan/bucket3。在我的网站http://bc3.brite.biz/中，中文帖子可以成功发布。问题答案： tl;dr / quick fix 不要对Willy Nilly进行解码/编码不要以为你的字符串是UTF-8编码的尝试在代码中尽快将字符
如何修复："UnicodeDecodeError：'ascii'编解码器无法解码字节"

如何修复它？在其他一些基于python的静态博客应用程序中，可以成功发布中文帖子。例如此应用程序：http://github.com/vrypan/bucket3.在我的网站http://bc3.brite.biz/，可以成功发布中文帖子。
UnicodeDecodeError：“ utf8”编解码器无法解码字节0x9c

问题内容：我有一个套接字服务器，应该从客户端接收UTF-8有效字符。问题是某些客户端（主要是黑客）正在通过它发送所有错误的数据。我可以轻松地区分真正的客户端，但是我会将所有发送的数据记录到文件中，以便以后进行分析。有时我会得到这样的导致错误的字符。我需要能够使带有或不带有这些字符的字符串UTF-8。更新：对于我的特殊情况，套接字服务是MTA，因此我只希望接收ASCII命令，例如：我
UnicodeDecodeError:“utf8”编解码器无法解码字节0x9c

我有一个套接字服务器，它应该从客户端接收UTF-8有效字符。问题是一些客户端（主要是黑客）正在通过它发送所有错误类型的数据。我可以很容易地分辨出真正的客户机，但我会将发送的所有数据记录到文件中，以便以后进行分析。有时我会遇到这样的字符，导致UnicodeDecodeError错误。我需要能够使字符串UTF-8有或没有这些字符。更新：对于我的特殊情况，套接字服务是MTA，因此我只希望接收
UnicodeDecodeError：'ascii'编解码器无法解码位置23的字节0xc3：序数不在范围内（128）

问题内容：当我尝试将其串联时，当字段包含“ñ”或“´”时，出现UnicodeDecodeError。如果包含“ñ”或“´”的字段是最后一个，则不会有任何错误。任何想法？非常感谢！问题答案：您正在编码为UTF-8，然后重新编码为UTF-8。Python仅在首先再次解码为Unicode时才能这样做，但它必须使用默认的ASCII编解码器：不要继续编码；将编码保留为UTF-8 到最后一个
UnicodeDecodeError：'utf8'编解码器无法解码位置3131中的字节0x80：无效的起始字节

问题内容：我正在尝试使用python 2.7.12从json文件读取twitter数据。我使用的代码是这样的：结果我得到：我仔细研究了类似问题的所有答案，并想出了这段代码，它在上一次有效。我不知道为什么现在不起作用…我将不胜感激！问题答案：这对您没有帮助，这会使事情进一步混乱- 这是一个讨厌的黑客，您需要将其从代码中删除。错误正在发生，因为是一个字符串，您正在调用。仅当字符串是Uni
UnicodeDecodeError:“utf8”编解码器无法解码位置0中的字节0xa5:无效的开始字节

我正在使用脚本，但在执行时在服务器日志中发现此错误，在这里函数返回。在发布此问题之前，我已将此问题提交给了SO。下面这行代码伤害了JSON编码器，我找到了一个临时的解决办法但是我不确定这样做是否正确。

UnicodeDecodeError:“ascii”编解码器无法解码位置中的字节0xc3

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档