我正在尝试从此处NYTimes.com解码HTML条目,但无法弄清楚自己在做什么错。
举个例子:
"U.S. Adviser’s Blunt Memo on Iraq: Time ‘to Go Home’"
我尝试了BeautifulSoup,decode(’iso-8859-1’)和django.utils.encoding的smart_str,但没有成功。
尝试这个:
import re
def _callback(matches):
id = matches.group(1)
try:
return unichr(int(id))
except:
return id
def decode_unicode_references(data):
return re.sub("&#(\d+)(;|(?=\s))", _callback, data)
data = "U.S. Adviser’s Blunt Memo on Iraq: Time ‘to Go Home’"
print decode_unicode_references(data)
问题内容: 我正在使用Beautiful Soup 3解析一些HTML,但是它包含HTML实体,Beautiful Soup 3不会自动为我解码: 如何解码HTML实体text以获得而不是。 问题答案: Python 3.4以上 用途: FYI html.parser.HTMLParser.unescape已弃用,并且应该在3.5中删除,尽管它是错误地保留的。它将很快从语言中删除。 Python
问题内容: 我正在使用Beautiful Soup 3解析一些HTML,但是它包含HTML实体,Beautiful Soup 3不会自动为我解码: 如何解码HTML实体以获得而不是。 问题答案: Python 3.4以上 用途: FYI 已弃用,并且应该在3.5中删除,尽管它是错误地保留的。它将很快从语言中删除。 Python 2.6-3.3 您可以从标准库中使用: 对于python 2.6-2.
问题内容: 如何使用jQuery解码字符串中的HTML实体? 问题答案: 安全说明: 使用此答案(下面以其原始形式保留)可能会在您的应用程序中引入XSS漏洞。您不应该使用此答案。 阅读lucascaro的答案以获取对该答案中漏洞的解释,然后改用该答案或MarkAmery的答案中的方法。 其实试试看
问题内容: 如何使用JavaScript或JQuery编码和解码HTML实体? 我希望它是: 问题答案: 您可以尝试类似: 更具交互性的版本:
问题内容: 我有一个HTML编码的字符串: 我想将其更改为: 我希望将其注册为HTML,以便浏览器将其呈现为图像,而不是显示为文本。 字符串的存储方式是这样的,因为我正在使用一种名为的网络抓取工具BeautifulSoup,它将“扫描”网页并从中获取某些内容,然后以该格式返回字符串。 我已经找到了如何在C#中而不是在Python中执行此操作。有人可以帮我吗? 问题答案: 给定Django用例,对此
本文向大家介绍Python中使用HTMLParser解析html实例,包括了Python中使用HTMLParser解析html实例的使用技巧和注意事项,需要的朋友参考一下 前几天遇到一个问题,需要把网页中的一部分内容挑出来,于是找到了urllib和HTMLParser两个库.urllib可以将网页爬下来,然后交由HTMLParser解析,初次使用这个库,在查官方文档时也遇到了一些问题,在这里写下来