当前位置: 首页 > 知识库问答 >
问题:

将HTML文件的内容提取为字符串的最佳方式是什么?(在Python中)[重复]

公羊伟志
2023-03-14

如何将您在网页上看到的内容/内容提取成字符串例如将以下内容:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>myWebpage</title>
</head>
<body>
    <p>this</p>
    <p>is</p>
    <p>an</p>
    <p>example</p>
</body>
</html>

转换成如下所示的字符串:

this is an example

共有2个答案

顾亦
2023-03-14

你可以使用硒,在这里找到文件:https://pypi.org/project/selenium/

景宏盛
2023-03-14

这个程序做你想做的:https://github.com/Alir3z4/html2text

您也可以尝试这样的操作:

import nltk   
from urllib import urlopen

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"    
html = urlopen(url).read()    
raw = nltk.clean_html(html)  
print(raw)

例如,这从该网页中提取文本。

 类似资料:
  • 问题内容: 我在Python中有一个Unicode字符串,我想删除所有的重音符号(变音符号)。 我在网上发现了一种用Java实现此目的的优雅方法: 将Unicode字符串转换为长规范化格式(带有单独的字母和变音符号) 删除所有Unicode类型为“变音符号”的字符。 我是否需要安装pyICU之类的库,还是仅使用python标准库就可以?那python 3呢? 重要说明:我想避免使用带有重音符号到非

  • 问题内容: 将数字转换为字符串的“最佳”方法是什么(就速度优势,清晰度优势,内存优势等而言)? 一些例子: 问题答案: 像这样: 实际上,即使我通常是为了简单方便而这样做,但 对于原始速度而言 ,似乎出现了1000多次迭代,但 对于 根据上述JSPerf测试最快: 应该注意的是,当您认为速度差异可以在0.1秒内进行1百万次转换时,速度差异并不是太大。 更新: 速度因浏览器而异。在Chrome中,根

  • 所以我想在python中抓取属性值,目前我正在使用正则表达式,但它不是那么有效,所以我想知道我应该使用什么,因为许多人说正则表达式不适合这样的东西。 谢谢 这就是我想得到的。 值始终包含随机数。

  • 问题内容: 尝试编写一个简短的方法,以便我可以解析一个字符串并提取第一个单词。我一直在寻找做到这一点的最佳方法。 我假设我会使用,但是我想只从字符串中获取第一个单词,并将其保存在一个变量中,并将其余标记放在另一个变量中。 有一个简洁的方法吗? 问题答案: 方法的第二个参数是可选的,如果指定该参数,则只会将目标字符串分割几次。 例如: 或者,您可以使用String方法。

  • 问题内容: 从TypeError的答案中可以看出,有两种不同的方式可以将字符串转换为字节:’str’不支持缓冲区接口 以下哪种方法更好或更Pythonic?还是仅仅是个人喜好问题? 问题答案: 如果你查看的文档,它将指向: ([源,编码,错误) 返回一个新的字节数组。类型是一个可变的整数序列,范围为。它具有可变序列类型中介绍的大多数可变序列的常用方法,以及字节类型具有的大多数方法,请参见Bytes

  • 问题内容: 哪种方法最适合(更理想的)用于测试非空字符串(在Go中)? 要么: 或者是其他东西? 问题答案: Go的标准库中都使用了这两种样式。 可以在以下软件包中找到:http : //golang.org/src/pkg/strconv/atoi.go 可以在以下包中找到:http : //golang.org/src/pkg/encoding/json/encode.go 两者都是惯用的,而