当前位置: 首页 > 面试题库 >

如何在熊猫中读取固定宽度格式的文本文件

尉迟德惠
2023-03-14
问题内容

我刚接触熊猫,正在弄清楚如何读取文件。该文件来自WRDS数据库,是SP500成分列表,可追溯到1960年代。我检查了文件,无论我如何使用“read_csv”将其导入,我仍然无法正确显示数据。

df = read_csv('sp500-sb.txt')

df

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1231 entries, 0 to 1230
Data columns: gvkeyx      from      thru     conm
                                        gvkey      co_conm
...(the column names)
dtypes: object(1)

以上输出内容是什么意思?一切都会有所帮助


问题答案:

韦斯在一封电子邮件中回答了我。干杯。

这是一个固定宽度格式的文件(通常不使用逗号或制表符分隔)。我意识到,熊猫没有像R那样的定宽阅读器,尽管可以很容易地完成。我会看看我能做什么。同时,如果您可以导出其他格式的数据(如csv-
真正用逗号分隔),则可以使用read_csv读取数据。我怀疑您可以使用一些Unix魔术将FWF文件转换为CSV文件。

我建议遵循github上的问题,因为您的电子邮件将从我的收件箱中消失:)

https://github.com/pydata/pandas/issues/920

最好的,韦斯



 类似资料:
  • 问题内容: 我从供应商那里得到了一个文件,每行有115个固定宽度的字段。如何将文件解析为115个字段,以便可以在代码中使用它们? 我首先想到的是只是为了让常数为每场像和使用。这看起来很丑,所以我很好奇这样做的更好方法。谷歌搜索打开的两个图书馆似乎都没有更好的选择。 问题答案: 我将使用像flatworm这样的平面文件解析器,而不是重新发明轮子:它具有简洁的API,易于使用,具有不错的错误处理能力和

  • 问题内容: 我尝试将文件读入熊猫。该文件具有以空格分隔的值,但是我尝试使用不同数量的空格: 但这不起作用 问题答案: 添加参数,它比正则表达式更快。

  • 问题内容: 我们有以下格式的记录: 宽度是固定的,我们需要将其导入SQL。我们尝试了批量导入,但由于未将’,’或’\ t’分开,因此无法正常工作。它在文本文件中由各个长度的各个空格分隔开,这就是我们的难题所在。 有关如何处理此问题的任何建议?谢谢! 问题答案: 当您对SQL感到比导入工具更熟悉时,可以将文件批量导入到临时表中的单个VARCHAR(255)列中。然后使用SQL处理所有记录并将其转换为

  • 问题内容: 我试图找到一种解析文件的方法,该文件包含固定宽度的线。例如,前20个字符代表一列,从21:30开始代表另一列,依此类推。 假设该行包含100个字符,将行解析为多个组件的有效方法是什么? 我可以每行使用字符串切片,但是如果行很大,这会有点难看。还有其他快速方法吗? 问题答案: 由于Python标准库的模块是用C编写的,因此使用它非常容易而且非常快捷。 这是可以用来完成您想要的事情的方法。

  • 问题内容: 我只是注意到,如果为HTML按钮提供固定宽度,则按钮内的文本永远不会被换行。我已经尝试过自动换行功能,但是即使有足够的空间可以换行,也可以减少单词的使用量。 如何使HTML按钮的文本像任何表格单元一样具有固定的宽度换行? CSS类除了添加边框和修改填充外什么也不做。如果我添加到此按钮,它将像这样包装它: 而且我不希望在单词中间切掉它。 问题答案: 我发现您可以使用空白CSS属性: 它将

  • 我试图读取熊猫泡菜时出错,例如方法,该方法存储在谷歌云存储中。我正在努力做到以下几点: 我得到以下错误: 或者我试着: 它可以在本地工作,但不能在CloudML上工作! 给我一个错误:AttributeError:'bytes'对象没有属性'seek'