当前位置：首页 > 面试题库 >

使用Python解码HTML实体

胡国兴

2023-03-14

问题内容：

我正在尝试从此处NYTimes.com解码HTML条目，但无法弄清楚自己在做什么错。

举个例子：

"U.S. Adviser&#8217;s Blunt Memo on Iraq: Time &#8216;to Go Home&#8217;"

我尝试了BeautifulSoup，decode（’iso-8859-1’）和django.utils.encoding的smart_str，但没有成功。

问题答案：

尝试这个：

import re

def _callback(matches):
    id = matches.group(1)
    try:
        return unichr(int(id))
    except:
        return id

def decode_unicode_references(data):
    return re.sub("&#(\d+)(;|(?=\s))", _callback, data)

data = "U.S. Adviser&#8217;s Blunt Memo on Iraq: Time &#8216;to Go Home&#8217;"
print decode_unicode_references(data)

类似资料：

Python-用Python字符串解码HTML实体？

问题内容：我正在使用Beautiful Soup 3解析一些HTML，但是它包含HTML实体，Beautiful Soup 3不会自动为我解码：如何解码HTML实体text以获得而不是。问题答案： Python 3.4以上用途： FYI html.parser.HTMLParser.unescape已弃用，并且应该在3.5中删除，尽管它是错误地保留的。它将很快从语言中删除。 Python
用Python字符串解码HTML实体？

问题内容：我正在使用Beautiful Soup 3解析一些HTML，但是它包含HTML实体，Beautiful Soup 3不会自动为我解码：如何解码HTML实体以获得而不是。问题答案： Python 3.4以上用途： FYI 已弃用，并且应该在3.5中删除，尽管它是错误地保留的。它将很快从语言中删除。 Python 2.6-3.3 您可以从标准库中使用：对于python 2.6-2.
如何使用jQuery解码HTML实体？

问题内容：如何使用jQuery解码字符串中的HTML实体？问题答案：安全说明：使用此答案（下面以其原始形式保留）可能会在您的应用程序中引入XSS漏洞。您不应该使用此答案。阅读lucascaro的答案以获取对该答案中漏洞的解释，然后改用该答案或MarkAmery的答案中的方法。其实试试看
HTML实体解码

问题内容：如何使用JavaScript或JQuery编码和解码HTML实体？我希望它是：问题答案：您可以尝试类似：更具交互性的版本：
如何使用Python / Django执行HTML解码/编码？

问题内容：我有一个HTML编码的字符串：我想将其更改为：我希望将其注册为HTML，以便浏览器将其呈现为图像，而不是显示为文本。字符串的存储方式是这样的，因为我正在使用一种名为的网络抓取工具BeautifulSoup，它将“扫描”网页并从中获取某些内容，然后以该格式返回字符串。我已经找到了如何在C＃中而不是在Python中执行此操作。有人可以帮我吗？问题答案：给定Django用例，对此
Python中使用HTMLParser解析html实例

本文向大家介绍Python中使用HTMLParser解析html实例，包括了Python中使用HTMLParser解析html实例的使用技巧和注意事项，需要的朋友参考一下前几天遇到一个问题,需要把网页中的一部分内容挑出来,于是找到了urllib和HTMLParser两个库.urllib可以将网页爬下来,然后交由HTMLParser解析,初次使用这个库,在查官方文档时也遇到了一些问题,在这里写下来

使用Python解码HTML实体

相关阅读

相关文章

相关问答

相关工具

相关文档