当前位置：首页 > 面试题库 >

如何使用Selenium / Python获取由JavaScript编写的html内容

张瀚漠

2023-03-14

问题内容：

我正在使用Selenium进行网络爬网，我想在Selenium模拟点击假链接后获得由JavaScript编写的元素（例如链接）。

我尝试了get_html_source（），但其中不包含JavaScript编写的内容。

我写的代码：

    def test_comment_url_fetch(self):
        sel = self.selenium 
        sel.open("/rmrb")
        url = sel.get_location()
        #print url
        if url.startswith('http://login'):
            sel.open("/rmrb")
        i = 1
        while True:
            try:
                if i == 1:
                    sel.click("//div[@class='WB_feed_type SW_fun S_line2']/div/div/div[3]/div/a[4]") 
                    print "click"
                else:
                    XPath = "//div[@class='WB_feed_type SW_fun S_line2'][%d]/div/div/div[3]/div/a[4]"%i
                    sel.click(XPath)
                    print "click"
            except Exception, e:
                print e
                break
            i += 1
        html = sel.get_html_source()
        html_file = open("tmp\\foo.html", 'w')
        html_file.write(html.encode('utf-8'))
        html_file.close()

我使用while循环单击一系列伪造的链接，这些伪造的链接触发js操作以显示额外的内容，而该内容正是我想要的。但是sel.get_html_source（）没有提供我想要的东西。

有人可以帮忙吗？非常感谢。

问题答案：

由于我通常在提取的节点上进行后处理，因此我直接在浏览器中使用运行JavaScript execute_script。例如，获取所有a-tag：

js_code = "return document.getElementsByTagName('a')"
your_elements = sel.execute_script(js_code)

编辑：execute_script和get_eval是等效的，除了get_eval执行隐式返回，execute_script必须明确声明它。

类似资料：

如何使用Selenium / Python获取由JavaScript编写的html内容[重复]

问题内容：这个问题已经在这里有了答案：使用Python在Selenium WebDriver中获取WebElement的HTML源代码（15个答案） 6年前关闭。我正在使用Selenium进行网络爬网，我想在Selenium模拟点击假链接后获得由JavaScript编写的元素（例如链接）。我尝试了get_html_source（），但其中不包含JavaScript编写的内容。我写的代
如何通过使用Selenium使用javascript呈现的源代码获取html

问题内容：我在一个网页上运行查询，然后得到结果URL。如果右键单击查看html源代码，则可以看到JS生成的html代码。如果我仅使用urllib，则python无法获取JS代码。所以我看到了一些使用硒的解决方案。这是我的代码：这是我在右键单击窗口中需要的源代码，（我需要信息部分）问题答案：您将需要通过使用硒功能来获取文档这将使所有内容都进入标签内
使用Python在Selenium WebDriver中获取WebElement的HTML源

问题内容：我正在使用Python绑定来运行Selenium WebDriver。我知道我可以像这样抓取网络元素… 而且我知道我可以通过…获得完整的页面资源但是无论如何，有没有获得“元素来源”？ Python的Selenium Webdriver文档基本上不存在，我在代码中看不到任何能够启用该功能的东西。对访问元素（及其子元素）的HTML的最佳方法有何想法？问题答案：您可以读取属性以获取
如何使用selenium获取特定元素的html源？

问题内容：我正在查看的页面包含：我想获取div中的所有文本，除了中的文本。（我想获得“文本1”，“文本3”和“文本4”）。可能有几个元素，或者根本没有。而且可能有一些元素，甚至一个元素都在另一个元素之中，或者根本没有。我想通过获取div的所有html源并使用正则表达式删除元素来做到这一点。但是selenium.get_text不会返回html，而只是返回文本（全部！）。我知道我可以使用正则
如何使用Selenium抓取多个URL的内容？Python

我有上面的编码来提取使用硒 - 蟒蛇的href链接。我想提取每个人的个人资料“董事会成员”中的内容。我知道如何逐个提取它们，但不知道如何编写循环来执行此操作。以下是我的代码: 任何想法都很感谢！
如何使用JavaScript获取HTML页面的标题？

问题内容：如何使用JavaScript获取HTML页面的标题？问题答案：用途：

相关阅读

如何使用JavaScript获取HTML页面的标题？如何使用javascript获取选定的html文本？如何通过使用selenium获取带有javascript呈现源代码的html 如何使用itext获取特定的html表内容以将其写入pdf 如何用JavaScript编写内联IF语句？

相关文章

使用VC6.0编写C语言程序使用CLion编写C语言程序使用VS2010编写C语言程序使用VS2022编写C语言程序使用VS2019编写C语言程序

相关问答

如何使用html、css、javascript获取隐藏内容以显示在光标上？使用selenium python使用复合类解析HTML内容如何在Selenium中获取WebElement的HTML代码 Selenium Xpath我如何使用start-with获取html id标签的值如何编写请求和获取

相关工具

Selenium-python-helium Pure JavaScript HTML Parser 获取网页的所有图片用ruby写的采集程序 html

相关文档

如何编写 jQuery 插件编写 Ruby 的 C 拓展 Sass Guidelines 编写规范写给不耐烦的 JavaScript 程序员 Python 安全编程