当前位置：首页 > 面试题库 >

Python-BeautifulSoup抓取可见网页文本

公孙驰

2023-03-14

问题内容：

基本上，我想使用BeautifulSoup来严格抓取网页上的可见文本。例如，此网页是我的测试用例。我主要想获取正文文本（文章），甚至在这里和那里甚至几个标签名称。我已经尝试过在这个SO问题中返回<script>不想要的标签和html注释的建议。我无法弄清楚该函数所需的参数findAll()，以便仅获取网页上的可见文本。

那么，我应该如何查找除脚本，注释，CSS等之外的所有可见文本？

问题答案：

尝试这个：

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)  
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))

类似资料：

Selenium与BeautifulSoup进行网页抓取

问题内容：我正在使用Python从网站上抓取内容。首先，我用和Python的，但我看到，该网站有一个按钮，通过JavaScript创建的内容，所以我决定使用。假设我可以使用Selenium等方法找到元素并获取其内容，那么当我可以对所有内容都使用Selenium时，有什么理由要使用？在这种特殊情况下，我需要使用Selenium来单击JavaScript按钮，以便更好地使用Selenium进行解
Python-网页抓取

我是python新手，正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen stats。有人想知道为什么吗？下面是我的代码和我得到的错误下面是我得到的错误 df11=pd。读取html（urlwk1）回溯（上次调用）：文件“”，第1行，在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
Python网页抓取/数据提取

在我的硕士论文中，我正在探索通过web自动化从网站中提取数据的可能性。步骤如下：登录网站（https://www.metal.com/Copper/201102250376）输入用户名和密码单击登录将日期更改为2020年1月1日刮取生成的表格数据，然后将其保存到csv文件中用我电脑上的特定名称保存到特定文件夹运行相同的序列，在同一浏览器窗口的新选项卡中下载其他材料的其他历史价格数据
Python-使用Python网页抓取JavaScript页面

问题内容：我正在尝试开发一个简单的网页抓取工具。我想提取没有代码的文本。我实现了这个目标，但是我发现在某些加载了的页面中，我没有获得良好的结果。例如，如果一些代码添加了一些文本，则看不到它，因为当我调用我得到的原始文本没有添加文本（因为在客户端执行了）。因此，我正在寻找一些解决此问题的想法。问题答案：一旦安装了，请确保二进制文件在当前路径中可用：例举个例子，我用以下HTML代码创建
python基于BeautifulSoup实现抓取网页指定内容的方法

本文向大家介绍python基于BeautifulSoup实现抓取网页指定内容的方法，包括了python基于BeautifulSoup实现抓取网页指定内容的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下：希望本文所述对大家的Python程序设计有所帮助。
使用Python进行网页抓取

问题内容：我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取网络内容？使用什么模块？有没有可用的教程？问题答案：结合使用urllib2和出色的BeautifulSoup库：

相关阅读

使用Selenium从网页获取所有可见文本使用python和selenium抓取动态网页如何通过Python抓取动态网页获取页面的可见文本如何在python中使用selenium和beautifulsoup从网站上抓取报纸文章？

相关文章

网页构成 CSS元素可见性 [实例]抓取动态加载数据 [实例]抓取百度贴吧数据 [实例]抓取链家二手房数据

相关问答

Python网页抓取（Beautiful Soup、Selenium和PhantomJS）：只抓取整个页面的一部分用Python抓取网页：非类型错误，不能抓取表的数据使用美丽汤抓取网页学校项目中的网页抓取如何用Python抓取javascript网站？

相关工具

多线程页面抓取服务器 BeautifulSoup 获取网页的所有图片半月笔记网页版解析html网页的数据

相关文档

Python 取证中文教程 MIP 移动网页加速器开发文档网页安全配色手册可爱的 Python Python 文本处理