当前位置: 首页 > 面试题库 >

如何使用Python将文件格式从Unicode转换为ASCII?

郑鸿朗
2023-03-14
问题内容

我使用第3方工具输出Unicode格式的文件。但是,我更喜欢使用ASCII。该工具没有设置来更改文件格式。

使用Python转换整个文件格式的最佳方法是什么?


问题答案:

您可以仅使用unicode函数就可以轻松地转换文件,但是如果没有与ASCII直接对应的Unicode字符,就会遇到问题。

该博客推荐该[unicodedata ](http://www.python.org/doc/2.5.2/lib/module- unicodedata.html)模块,该模块似乎可以粗略地转换字符而无需直接对应的ASCII值,例如

>>> title = u"Klüft skräms inför på fédéral électoral große"

通常转换为

Klft skrms infr p fdral lectoral groe

这是非常错误的。但是,使用该unicodedata模块,结果可能更接近原始文本:

>>> import unicodedata
>>> unicodedata.normalize('NFKD', title).encode('ascii','ignore')
'Kluft skrams infor pa federal electoral groe'


 类似资料:
  • 问题内容: 我正在尝试使用Python将Windows-1251(Cyrillic)的文件内容转换为Unicode。我找到了此功能,但不起作用。 我怎样才能做到这一点? 谢谢 问题答案: 这是您打算做什么?

  • 问题内容: 我有一个在Windows环境中开发的应用程序。该应用程序本身已部署到Linux环境。每次部署此应用程序时,都必须使用dos2unix将可执行文件转换为UNIX格式。我最初以为这是Windows CP1252编码引起的,所以我更新了Maven以将文件编码为UTF-8。这并不能解决我的问题,我很快通过搜索此站点发现与回车和换行有关。有没有办法让Maven在构建过程中将所有文件转换为UNIX

  • 问题内容: 对于某些要求,我想将 文本文件(定界) 转换为 ORC(优化行列) 格式。由于必须定期运行它,因此我想编写一个 Java程序 来执行此操作。我不想使用Hive临时表解决方法。有人可以帮我吗?以下是我尝试过的 运行此命令将显示以下错误,并在本地生成一个名为 part-00000 的文件 问题答案: 您可以使用Spark数据帧非常轻松地将定界文件转换为orc格式。您还可以指定/施加模式并过

  • 我有一个oracle DB,根据我们的DB管理,没有设置格式,但是当我们将数据导出到文本文件时,它是以utf-8的形式出现的 谁能帮我把这些文本文件转换成Unicode码吗

  • 我正在尝试使用python和python geojson创建一个features数组。我附加了一些功能,例如带有工作坐标的多边形。但是,当我转储时,geoJson文件中没有缩进。所有数据都在一行上,mapbox不接受数据。 F 这就是输出的样子。它应该缩进,而不是像那样聚集。 {“类型”:“特征集合”,“特征”:[{“类型”:“多边形”,“坐标”:[[[2.38,57.322],[23.194,-

  • 这里有一个包含数字的unicode.txt文件(.txt文件“82 117 109 112 101 108 115 116 105 108 116 115 107 105 110”的第一行)。我想把这个Unicode转换成普通文本。问题是,unicode.txt文件被复制到text.txt文件中,而不是这样做。我是java新手,所以希望有人能帮助我,如果我的代码的其他部分不正确,或者我的解释不能理