我正在尝试将MovieLens数据集复制到Python中的Pandas数据帧中。
movies = pd.read_csv('http://files.grouplens.org/datasets/movielens/ml-100k/u.item', sep='|', names = ['movie_id', 'title'], usecols = range(2))
movies.head()
但是,当我执行上述操作时,会出现以下错误。
UnicodeDecodeError回溯(最近一次调用)pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器_转换_代币()
熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_convert_with_dtype()
熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_string_convert()
pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器_字符串\u框\u utf8()
UnicodeDecodeError:“utf-8”编解码器无法解码位置3中的字节0xe9:无效的连续字节
在处理上述异常时,发生了另一个异常:
UnicodeDecodeError回溯(最近一次调用上次)位于()8 9---
/usr/local/lib/python3。5/dist包/pandas/io/parser。语法分析器中的py\u f(文件路径或缓冲区、sep、分隔符、标题、名称、索引列、usecols、squeeze、prefix、mangle\u dupe\u cols、数据类型、引擎、转换器、true\u值、false\u值、skipinitialspace、skiprows、nrows、na\u值、keep\u默认值、na\u筛选器、冗余、跳过空白行、解析日期、推断日期时间格式、keep\u日期列、日期解析器、dayfirst、迭代器、chunksize、压缩、千、十进制、行终止符、引号、引号、转义符、注释、编码、方言、元组、错误行、警告行、跳脚、跳脚、双引号、delim空格、as-recarray、compact-int、使用无符号、低内存、缓冲行、内存映射、浮点精度)703跳过空白行=跳过空白行)704--
/usr/local/lib/python3.5/dist-packages/pandas/io/parsers.py_read(filepath_or_buffer, kwds)449 450 try:--
/usr/local/lib/python3。5/dist包/pandas/io/parser。py in read(self,nrows)1063 raise ValueError('skipfooter not supported for iteration')1064-
/usr/local/lib/python3。5/dist包/pandas/io/parser。py in read(self,nrows)1826 def read(self,nrows=None):1827尝试:-
pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器。读()
熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_read_low_memory()
熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_read_rows()
pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器_转换列数据()
pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器。文本阅读器_转换_代币()
熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_convert_with_dtype()
熊猫/_libs/parsers.pyx。_libs.parsers.文本阅读器。_string_convert()
pandas/_libs/解析器。大熊猫中的pyx_图书馆。解析器_字符串\u框\u utf8()
UnicodeDecodeError:“utf-8”编解码器无法解码位置3中的字节0xe9:无效的连续字节
我正在Python 3中的html" target="_blank">Jupyter笔记本中工作。如何解决错误?
将文件更改为UTF-8格式,这将解决问题。如果您不知道如何以UTF-8编码格式保存文件,以下链接将有所帮助。https://www.xadapter.com/how-to-save-csv-excel-file-as-utf-8-encoded/
该文件不是UTF-8编码的。不过,我们可以做出合理的猜测,我们可以请chardet第三方图书馆帮助我们:
In [23]: import urllib, chardet
In [24]: url = 'http://files.grouplens.org/datasets/movielens/ml-100k/u.item'
In [25]: u = chardet.UniversalDetector()
In [26]: u.feed(urllib.request.urlopen(url).read())
In [27]: u.close()
Out[27]: {'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}
In [28]: movies = pd.read_csv(url, sep='|', names = ['movie_id', 'title'],
usecols = range(2), encoding='iso-8859-1')
In [29]: movies.head()
Out[29]:
movie_id title
0 1 Toy Story (1995)
1 2 GoldenEye (1995)
2 3 Four Rooms (1995)
3 4 Get Shorty (1995)
4 5 Copycat (1995)
我正在尝试将一个文件夹中的多个csv文件导入到一个数据帧中。这是我的密码。它可以遍历文件并成功地打印它们,它可以将一个文件读入一个数据帧,但将它们组合在一起打印会出错。我看到了很多类似的问题,但回答是复杂的,我认为“Pythonic”的方式是简单的,因为我是新手。事先谢谢你的帮助。错误消息总是:没有这样的文件或目录:“一些文件名”,这没有意义,因为它成功地打印了文件名在打印步骤。
我正在尝试使用Databricks的spark-csv2.10依赖关系将一个数据帧写入到HDFS的*.csv文件。依赖关系似乎可以正常工作,因为我可以将.csv文件读入数据帧。但是当我执行写操作时,我会得到以下错误。将头写入文件后会出现异常。 当我将查询更改为时,write工作很好。 有谁能帮我一下吗? 编辑:根据Chandan的请求,这里是的结果
我正在使用: Python 3.6.8 火花2.4.4 我在spark类路径中有以下JAR: http://repo1.maven.org/maven2/com/databricks/spark-redshift_2.11/2.0.1/spark-redshift_2.11-2.0.1.jar http://repo1.maven.org/maven2/com/databricks/spark-a
在这里阅读SQLite文档时,当进程想要写入SQLite数据库时,它会获得一个保留的锁。然后,一旦进程准备好写入磁盘,它就会获得一个挂起的锁,在此期间,没有新的进程可以获得共享锁,但允许现有的共享锁完成它们的业务。一旦剩余的共享锁清除,进程就可以写。 然而,当我试图编写一个数据库,而其他进程正在从该数据库中读取时,我只会立即得到一个“错误:dataset被锁定”。 为什么SQLite不执行我上面概
我正试图更好地理解Python以及为什么我会收到错误。 我有一个带有国家名称的数据框,我想过滤数据集,只显示那些没有重复项的数据。我进入: 然而,我得到一个错误 似乎创建了一个列表,该列表还显示了国家名称和布尔值,而不仅仅是我所期望的布尔值。 此外,我尝试只对一个国家进行过滤,即,,效果非常好。 我只是想理解为什么在一个场景中它起作用,而在另一个场景中它不起作用。我确实注意到后者有一个从0开始的索
我有一个由180M行和4列(所有整数)组成的熊猫数据帧。我把它保存为泡菜文件,文件是5.8GB。我正在尝试使用将熊猫数据帧转换为 pyspark 数据帧,但不断收到“内存不足”错误。 错误代码段为 我有超过200GB的内存,我不认为缺少物理内存是个问题。我了解到有多种内存限制,例如驱动内存-这可能是原因吗? 我该如何解决这个问题?