问题：

将数据集从网页读入数据帧时出现UnicodeDecodeError

慕容宏毅

2023-03-14

我正在尝试将MovieLens数据集复制到Python中的Pandas数据帧中。

movies = pd.read_csv('http://files.grouplens.org/datasets/movielens/ml-100k/u.item', sep='|', names = ['movie_id', 'title'], usecols = range(2))
movies.head()

但是，当我执行上述操作时，会出现以下错误。

UnicodeDecodeError回溯（最近一次调用）pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器_转换_代币（）

熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_convert_with_dtype（）

熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_string_convert（）

pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器_字符串\u框\u utf8（）

UnicodeDecodeError:“utf-8”编解码器无法解码位置3中的字节0xe9:无效的连续字节

在处理上述异常时，发生了另一个异常：

UnicodeDecodeError回溯（最近一次调用上次）位于（）8 9---

/usr/local/lib/python3。5/dist包/pandas/io/parser。语法分析器中的py\u f（文件路径或缓冲区、sep、分隔符、标题、名称、索引列、usecols、squeeze、prefix、mangle\u dupe\u cols、数据类型、引擎、转换器、true\u值、false\u值、skipinitialspace、skiprows、nrows、na\u值、keep\u默认值、na\u筛选器、冗余、跳过空白行、解析日期、推断日期时间格式、keep\u日期列、日期解析器、dayfirst、迭代器、chunksize、压缩、千、十进制、行终止符、引号、引号、转义符、注释、编码、方言、元组、错误行、警告行、跳脚、跳脚、双引号、delim空格、as-recarray、compact-int、使用无符号、低内存、缓冲行、内存映射、浮点精度）703跳过空白行=跳过空白行）704--

/usr/local/lib/python3.5/dist-packages/pandas/io/parsers.py_read（filepath_or_buffer， kwds）449 450 try：--

/usr/local/lib/python3。5/dist包/pandas/io/parser。py in read（self，nrows）1063 raise ValueError（'skipfooter not supported for iteration'）1064-

/usr/local/lib/python3。5/dist包/pandas/io/parser。py in read（self，nrows）1826 def read（self，nrows=None）：1827尝试：-

pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器。读（）

熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_read_low_memory（）

熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_read_rows（）

pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器_转换列数据（）

pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器_转换_代币（）

熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_convert_with_dtype（）

熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_string_convert（）

pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器_字符串\u框\u utf8（）

UnicodeDecodeError:“utf-8”编解码器无法解码位置3中的字节0xe9:无效的连续字节

我正在Python 3中的html" target="_blank">Jupyter笔记本中工作。如何解决错误？

共有2个答案

洪飞白

2023-03-14

将文件更改为UTF-8格式，这将解决问题。如果您不知道如何以UTF-8编码格式保存文件，以下链接将有所帮助。https://www.xadapter.com/how-to-save-csv-excel-file-as-utf-8-encoded/

田马鲁

2023-03-14

该文件不是UTF-8编码的。不过，我们可以做出合理的猜测，我们可以请chardet第三方图书馆帮助我们：

In [23]: import urllib, chardet

In [24]: url = 'http://files.grouplens.org/datasets/movielens/ml-100k/u.item'

In [25]: u = chardet.UniversalDetector()

In [26]: u.feed(urllib.request.urlopen(url).read())

In [27]: u.close()
Out[27]: {'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

In [28]: movies = pd.read_csv(url, sep='|', names = ['movie_id', 'title'], 
                              usecols = range(2), encoding='iso-8859-1')

In [29]: movies.head()
Out[29]: 
   movie_id              title
0         1   Toy Story (1995)
1         2   GoldenEye (1995)
2         3  Four Rooms (1995)
3         4  Get Shorty (1995)
4         5     Copycat (1995)

类似资料：

Python：将文件读入数据帧时出错

我正在尝试将一个文件夹中的多个csv文件导入到一个数据帧中。这是我的密码。它可以遍历文件并成功地打印它们，它可以将一个文件读入一个数据帧，但将它们组合在一起打印会出错。我看到了很多类似的问题，但回答是复杂的，我认为“Pythonic”的方式是简单的，因为我是新手。事先谢谢你的帮助。错误消息总是：没有这样的文件或目录：“一些文件名”，这没有意义，因为它成功地打印了文件名在打印步骤。
火花：将数据帧写入CSV时出错

我正在尝试使用Databricks的spark-csv2.10依赖关系将一个数据帧写入到HDFS的*.csv文件。依赖关系似乎可以正常工作，因为我可以将.csv文件读入数据帧。但是当我执行写操作时，我会得到以下错误。将头写入文件后会出现异常。当我将查询更改为时，write工作很好。有谁能帮我一下吗？编辑：根据Chandan的请求，这里是的结果
从Redshift读取Spark数据帧返回空数据帧

我正在使用： Python 3.6.8 火花2.4.4 我在spark类路径中有以下JAR： http://repo1.maven.org/maven2/com/databricks/spark-redshift_2.11/2.0.1/spark-redshift_2.11-2.0.1.jar http://repo1.maven.org/maven2/com/databricks/spark-a
当其他进程从SQLite数据集读取时写入该数据集

在这里阅读SQLite文档时，当进程想要写入SQLite数据库时，它会获得一个保留的锁。然后，一旦进程准备好写入磁盘，它就会获得一个挂起的锁，在此期间，没有新的进程可以获得共享锁，但允许现有的共享锁完成它们的业务。一旦剩余的共享锁清除，进程就可以写。然而，当我试图编写一个数据库，而其他进程正在从该数据库中读取时，我只会立即得到一个“错误：dataset被锁定”。为什么SQLite不执行我上面概
创建子集数据帧时出现问题[重复]

我正试图更好地理解Python以及为什么我会收到错误。我有一个带有国家名称的数据框，我想过滤数据集，只显示那些没有重复项的数据。我进入：然而，我得到一个错误似乎创建了一个列表，该列表还显示了国家名称和布尔值，而不仅仅是我所期望的布尔值。此外，我尝试只对一个国家进行过滤，即，，效果非常好。我只是想理解为什么在一个场景中它起作用，而在另一个场景中它不起作用。我确实注意到后者有一个从0开始的索
将熊猫数据帧转换为 pyspark 数据帧时出现内存不足错误

我有一个由180M行和4列（所有整数）组成的熊猫数据帧。我把它保存为泡菜文件，文件是5.8GB。我正在尝试使用将熊猫数据帧转换为 pyspark 数据帧，但不断收到“内存不足”错误。错误代码段为我有超过200GB的内存，我不认为缺少物理内存是个问题。我了解到有多种内存限制，例如驱动内存-这可能是原因吗？我该如何解决这个问题？

将数据集从网页读入数据帧时出现UnicodeDecodeError

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档