当前位置：首页 > 面试题库 >

如何解析包含隐藏标签的HTML页面

盛建德

2023-03-14

问题内容：

我正在尝试解析某些网页以供将来使用。为了解析网页，我使用了urllib，lxml，BeautifulSoup，HTMLParser等不同的模块来实现我的目标。

在解析网页时，我没有遇到任何问题，直到遇到隐藏标签为止。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时，我能够看到<embed>部分代码：

 <embed type="..." src="..." ID="..." >

并且只需手动复制/粘贴即可。

我需要ID从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分？有什么办法解析这些隐藏的部分吗？

我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分，但我想事实并非如此。

问题答案：

此“隐藏”代码可能是由JavaScript在运行时生成的。

与尝试让某些内容运行脚本然后解析最终的DOM树相比，发现JavaScript的工作方式以及从何处获取数据（URL）的运气更好。

类似资料：

在没有任何html标签的html中隐藏文本

问题内容：我在下面有HTML代码，并且文本周围没有任何HTML。有什么方法可以隐藏 “ p”标记后的文本“ Enter” ？无法用div或任何其他标签包装它，因此我需要一些不同的决定，例如JavaScript或CSS？问题答案：我会考虑使用font-size的CSS hack：另一个想法是：
如何隐藏一个javascript html脚本标签？[重复]

我试图从桌面隐藏一个javascript脚本块，并且只能在移动设备上显示它。谢谢
如何使用xpath解析嵌套的html标签

这是我的示例html代码。使用HtmlXpath Selector我需要解析html文件。 def parse（自己，响应）：edxData=HtmlXpath Selector（响应）首先，我需要获取所有包含 edxData.xpath 的标记（'//h2[@class = “标题课程-标题”]'）在该标签内，我需要检查标签值。然后需要解析带有类名字幕课程 - 字幕复制 - 详细信息的d
Thymeleaf：显示包含html标签的变量

在邮件中，我想显示一个java变量：在邮件模板中，我执行以下操作：在邮件中，它转换为：如何使变量得到很好的解释。非常感谢。
如何隐藏HTML表中的列？

问题内容：我已经在ASPX中创建了一个表。我想根据要求隐藏其中一列，但是没有像HTML表构建那样的属性。我该如何解决我的问题？问题答案：为此，您需要使用样式表。
Python：如何解析包含“ ..”的URL

问题内容：我需要唯一地标识和存储一些URL。问题在于有时它们会包含“ ..”，就像基本上，如果我没记错的话。是否有Python函数或复杂的方法来解析此URL？问题答案：有一个简单的解决方案使用：但是，如果没有结尾斜杠（最后一个组件是文件，而不是目录），则最后一个组件将被删除。此修复程序使用urlparse函数提取路径，然后使用（的posixpath版本）对组件进行规范化。用斜杠补偿一个

相关阅读

如何使用Node.js解析HTML页面 AngularJS-渲染字符串中包含的HTML标签将滚动条隐藏在HTML页面上如何在Jsoup解析中避免围绕html head标签从包含C＃的字符串中删除HTML标签

相关文章

HTML 标签列表（功能排序）HTML 标签列表(字母排序)Jsoup 使用DOM解析HTML Git隐藏(Stash)操作 TensorFlow感知器隐藏层

相关问答

Chart.js v2隐藏数据集标签如何检查隐藏页签上勾选了哪些值 vue.js - vue 的v-html 不能解析 em 标签？如何隐藏. php扩展从网页？mac os 上的 lxml 无法解析包含 emoji 的 html？

相关工具

解析html网页的数据标准TVL格式数据解析标签云Demo Google地图JSP标签库 ini格式解析

相关文档

KAG 标签文档 v1.0 深入解析 Go Tornado 源码解析深度解析 ECMAScript 6 HTML 宝典