当前位置: 首页 > 面试题库 >

如何解析包含隐藏标签的HTML页面

盛建德
2023-03-14
问题内容

我正在尝试解析某些网页以供将来使用。为了解析网页,我使用了urllib,lxml,BeautifulSoup,HTMLParser等不同的模块来实现我的目标。

在解析网页时,我没有遇到任何问题,直到遇到隐藏标签为止。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时,我能够看到<embed>部分代码:

 <embed type="..." src="..." ID="..." >

并且只需手动复制/粘贴即可。

我需要ID从这个隐藏标签中进行解析。为什么我可以使用python从网站解析此部分?有什么办法解析这些隐藏的部分吗?

我知道不可能在html源代码中看到诸如php和asp之类的一些代码部分,但我想事实并非如此。


问题答案:

此“隐藏”代码可能是由JavaScript在运行时生成的。

与尝试让某些内容运行脚本然后解析最终的DOM树相比,发现JavaScript的工作方式以及从何处获取数据(URL)的运气更好。



 类似资料:
  • 问题内容: 我在下面有HTML代码,并且文本周围没有任何HTML。有什么方法可以隐藏 “ p”标记后 的文本“ Enter” ? 无法用div或任何其他标签包装它,因此我需要一些不同的决定,例如JavaScript或CSS? 问题答案: 我会考虑使用font-size的CSS hack: 另一个想法是:

  • 我试图从桌面隐藏一个javascript脚本块,并且只能在移动设备上显示它。 谢谢

  • 这是我的示例html代码。 使用HtmlXpath Selector我需要解析html文件。 def parse(自己,响应):edxData=HtmlXpath Selector(响应) 首先,我需要获取所有包含 edxData.xpath 的标记('//h2[@class = “标题课程-标题”]') 在该标签内,我需要检查标签值。 然后需要解析带有类名字幕课程 - 字幕复制 - 详细信息的d

  • 在邮件中,我想显示一个java变量: 在邮件模板中,我执行以下操作: 在邮件中,它转换为: 如何使变量得到很好的解释。 非常感谢。

  • 问题内容: 我已经在ASPX中创建了一个表。我想根据要求隐藏其中一列,但是没有像HTML表构建那样的属性。我该如何解决我的问题? 问题答案: 为此,您需要使用样式表。

  • 问题内容: 我需要唯一地标识和存储一些URL。问题在于有时它们会包含“ ..”,就像基本上,如果我没记错的话。 是否有Python函数或复杂的方法来解析此URL? 问题答案: 有一个简单的解决方案使用: 但是,如果没有结尾斜杠(最后一个组件是文件,而不是目录),则最后一个组件将被删除。 此修复程序使用urlparse函数提取路径,然后使用(的posixpath版本)对组件进行规范化。用斜杠补偿一个