如何将您在网页上看到的内容/内容提取成字符串例如将以下内容:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>myWebpage</title>
</head>
<body>
<p>this</p>
<p>is</p>
<p>an</p>
<p>example</p>
</body>
</html>
转换成如下所示的字符串:
this is an example
你可以使用硒,在这里找到文件:https://pypi.org/project/selenium/
这个程序做你想做的:https://github.com/Alir3z4/html2text
您也可以尝试这样的操作:
import nltk
from urllib import urlopen
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)
例如,这从该网页中提取文本。
问题内容: 我在Python中有一个Unicode字符串,我想删除所有的重音符号(变音符号)。 我在网上发现了一种用Java实现此目的的优雅方法: 将Unicode字符串转换为长规范化格式(带有单独的字母和变音符号) 删除所有Unicode类型为“变音符号”的字符。 我是否需要安装pyICU之类的库,还是仅使用python标准库就可以?那python 3呢? 重要说明:我想避免使用带有重音符号到非
问题内容: 将数字转换为字符串的“最佳”方法是什么(就速度优势,清晰度优势,内存优势等而言)? 一些例子: 问题答案: 像这样: 实际上,即使我通常是为了简单方便而这样做,但 对于原始速度而言 ,似乎出现了1000多次迭代,但 对于 根据上述JSPerf测试最快: 应该注意的是,当您认为速度差异可以在0.1秒内进行1百万次转换时,速度差异并不是太大。 更新: 速度因浏览器而异。在Chrome中,根
所以我想在python中抓取属性值,目前我正在使用正则表达式,但它不是那么有效,所以我想知道我应该使用什么,因为许多人说正则表达式不适合这样的东西。 谢谢 这就是我想得到的。 值始终包含随机数。
问题内容: 尝试编写一个简短的方法,以便我可以解析一个字符串并提取第一个单词。我一直在寻找做到这一点的最佳方法。 我假设我会使用,但是我想只从字符串中获取第一个单词,并将其保存在一个变量中,并将其余标记放在另一个变量中。 有一个简洁的方法吗? 问题答案: 方法的第二个参数是可选的,如果指定该参数,则只会将目标字符串分割几次。 例如: 或者,您可以使用String方法。
问题内容: 从TypeError的答案中可以看出,有两种不同的方式可以将字符串转换为字节:’str’不支持缓冲区接口 以下哪种方法更好或更Pythonic?还是仅仅是个人喜好问题? 问题答案: 如果你查看的文档,它将指向: ([源,编码,错误) 返回一个新的字节数组。类型是一个可变的整数序列,范围为。它具有可变序列类型中介绍的大多数可变序列的常用方法,以及字节类型具有的大多数方法,请参见Bytes
问题内容: 哪种方法最适合(更理想的)用于测试非空字符串(在Go中)? 要么: 或者是其他东西? 问题答案: Go的标准库中都使用了这两种样式。 可以在以下软件包中找到:http : //golang.org/src/pkg/strconv/atoi.go 可以在以下包中找到:http : //golang.org/src/pkg/encoding/json/encode.go 两者都是惯用的,而