当前位置: 首页 > 面试题库 >

Python和字符规范化

长孙瑞
2023-03-14
问题内容

我从一个包含特殊字符的国外来源中检索了基于文本的utf8数据,例如,u"ıöüç"当我想将它们标准化为英语时,例如"ıöüç"-> "iouc"。实现这一目标的最佳方法是什么?


问题答案:

我建议使用Unidecode模块:

>>> from unidecode import unidecode
>>> unidecode(u'ıöüç')
'iouc'

请注意如何为它提供一个unicode字符串,并输出一个字节字符串。保证输出为ASCII。



 类似资料:
  • 简单地理解,标识符就是一个名字,就好像我们每个人都有属于自己的名字,它的主要作用就是作为变量、函数、类、模块以及其他对象的名称。 Python 中标识符的命名不是随意的,而是要遵守一定的命令规则,比如说: 标识符是由字符(A~Z 和 a~z)、下划线和数字组成,但第一个字符不能是数字。 标识符不能和 Python 中的保留字相同。有关保留字,后续章节会详细介绍。 Python中的标识符中,不能包含

  • 问题内容: 我一直在阅读RFC-4627规范,并开始进行解释: 在将有效载荷宣传为哑剧类型时, 有 必须 是没有在正确编码JSON的开始小号流(基于部分“3.编码”),以及 没有媒体参数也被支持,从而一个的mime类型报头并 不 符合RFC-4627(基于部分“6. IANA考虑”)。 这些是正确的推论吗?在实施遵循这种解释的Web服务或Web客户端时,我会遇到问题吗?是否应该针对违反上述两个属性

  • 公司及产品名称 我们的公司及产品名称是「DaoCloud」。注意这是两个单词的合成词,所以中间沒有空格(参考:GitHub)。如作为 URL 的一部分,应该使用全小写的「daocloud」。 文案风格 一定多检查,确保没有错别字。 即使是流行语中的谐音错别字也不要使用,比如「墙裂」、「童鞋」等。 我们崇尚精练的文风。请在检查中把对表达意思没有明显作用的字、词、句删除,在不影响表达效果的前提下把文案

  • 我可以为此使用哪个模块/包?我该怎么做呢? 供参考:http://www.w3.org/tr/xml-exc-c14n/

  • 本来不应该把这个章节放在那面前面的,因为还没进行学习之前,直接看这个章节,会感觉有很多莫名其妙的东西。 但是把这个章节放在前面的用意,只是让大家预览一下,有个印象,而且在以后的学习中,也方便大家查阅。 目录

  • 分号 小技巧 不要在行尾加分号, 也不要用分号将两条命令放在同一行. 行长度 小技巧 每行不超过80个字符 例外: 长的导入模块语句 注释里的URL,路径以及其他的一些长标记 不便于换行,不包含空格的模块级字符串常量,比如url或者路径 Pylint 禁用注释.(例如:``# pylint: disable=invalid-name) 除非是在 with 语句需要三个以上的上下文管理器的情况下,否