当前位置：首页 > 面试题库 >

在Python中将XML / HTML实体转换为Unicode字符串

令狐凌

2023-03-14

问题内容：

我正在做一些Web抓取，并且站点经常使用HTML实体来表示非ascii字符。Python是否有一个实用程序可以接受带有HTML实体的字符串并返回unicode类型？

例如：

我回来了：

&#x01ce;

代表带有音调标记的“ǎ”。以二进制形式表示为16位01ce。我想将html实体转换为值 u'\u01ce'

问题答案：

标准库自己的HTMLParser具有未记录的函数unescape（），它完全按照你的想法执行操作：

import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&copy; 2010') # u'\xa9 2010'
h.unescape('&#169; 2010') # u'\xa9 2010'

类似资料：

在Swift中将Unicode符号或其XML / HTML实体转换为其Unicode数字

问题内容：给定一个Unicode符号或其XML / HTML实体，一个人如何生成其Unicode数字？例如，如果为您提供了字符串，并且可以生成其HTML代码（），那么如何生成其Unicode数字（）？我目前正在通过使用API并用于转换来生成HTML实体。但是unicode号本身并没有转换。问题答案：更新： Xcode 9•Swift 4 Xcode 8•Swift 3
Python字符串转换为unicode

问题内容：我有一个包含unicode字符等的字符串，以某种方式不被我接收，但被作为接收。如何将其转换回unicode？显然不是答案。那是什么问题答案： Unicode转义仅适用于unicode字符串，因此实际上是由6个字符组成的字符串：“ \”，“ u”，“ 2”，“ 0”，“ 2”，“ 6”。要从中制作出unicode，请使用：
将HTML实体转换为Unicode，反之亦然

问题内容：如何在Python中将HTML实体转换为Unicode，反之亦然？问题答案：您需要有BeautifulSoup。
如何将unicode转义序列转换为python字符串中的unicode字符

问题内容：当我尝试使用“ unicode（head.contents [3]）”获取标签的内容时，我得到类似于以下的输出：“ Christensen Sk \ xf6ld”。我希望转义序列作为字符串返回。如何在python中做？问题答案：假设Python将名称视为普通字符串，则首先必须将其解码为unicode：实现此目的的另一种方法：注意字符串前面的“ u”，表示它是未编码的。如果进行打
将unicode字符串字典转换为python中的字典

问题内容：我有unicode ，我希望它以字典格式。我想要它的格式。我试过了，但它返回的字符串不是字典。谁能帮我？问题答案：您可以使用内置包：帮助ast模块中的literal_eval函数： literal_eval（node_or_string）安全地评估表达式节点或包含Python表达式的字符串。提供的字符串或节点只能由以下Python文字结构组成：字符串，数字，元组，列表，字
如何在python级别将unicode转换为字符串？

问题内容：如果明确定义，以下unicode和字符串可以单独存在：如果只分配了上述变量，如何在Python 2.5或2.6中将其转换为？编辑：我做了以下事情：解决了我的问题。有人可以向我解释到底发生了什么吗？问题答案：您似乎混淆了编码。看来您真正想要的是等效于。但是您似乎是被错误解码的UTF-8编码。您可以通过将unicode字符串转换为普通字符串来解决此问题。我不确定最好的方法是什

在Python中将XML / HTML实体转换为Unicode字符串

相关阅读

相关文章

相关问答

相关工具

相关文档