当前位置: 首页 > 面试题库 >

如何使用Selenium / Python获取由JavaScript编写的html内容

张瀚漠
2023-03-14
问题内容

我正在使用Selenium进行网络爬网,我想在Selenium模拟点击假链接后获得由JavaScript编写的元素(例如链接)。

我尝试了get_html_source(),但其中不包含JavaScript编写的内容。

我写的代码:

    def test_comment_url_fetch(self):
        sel = self.selenium 
        sel.open("/rmrb")
        url = sel.get_location()
        #print url
        if url.startswith('http://login'):
            sel.open("/rmrb")
        i = 1
        while True:
            try:
                if i == 1:
                    sel.click("//div[@class='WB_feed_type SW_fun S_line2']/div/div/div[3]/div/a[4]") 
                    print "click"
                else:
                    XPath = "//div[@class='WB_feed_type SW_fun S_line2'][%d]/div/div/div[3]/div/a[4]"%i
                    sel.click(XPath)
                    print "click"
            except Exception, e:
                print e
                break
            i += 1
        html = sel.get_html_source()
        html_file = open("tmp\\foo.html", 'w')
        html_file.write(html.encode('utf-8'))
        html_file.close()

我使用while循环单击一系列伪造的链接,这些伪造的链接触发js操作以显示额外的内容,而该内容正是我想要的。但是sel.get_html_source()没有提供我想要的东西。

有人可以帮忙吗?非常感谢。


问题答案:

由于我通常在提取的节点上进行后处理,因此我直接在浏览器中使用运行JavaScript execute_script。例如,获取所有a-tag:

js_code = "return document.getElementsByTagName('a')"
your_elements = sel.execute_script(js_code)

编辑:execute_scriptget_eval是等效的,除了get_eval执行隐式返回,execute_script必须明确声明它。



 类似资料:
  • 问题内容: 这个问题已经在这里有了答案 : 使用Python在Selenium WebDriver中获取WebElement的HTML源代码 (15个答案) 6年前关闭。 我正在使用Selenium进行网络爬网,我想在Selenium模拟点击假链接后获得由JavaScript编写的元素(例如链接)。 我尝试了get_html_source(),但其中不包含JavaScript编写的内容。 我写的代

  • 问题内容: 我在一个网页上运行查询,然后得到结果URL。如果右键单击查看html源代码,则可以看到JS生成的html代码。如果我仅使用urllib,则python无法获取JS代码。所以我看到了一些使用硒的解决方案。这是我的代码: 这是我在右键单击窗口中需要的源代码,(我需要信息部分) 问题答案: 您将需要通过使用硒功能来获取文档 这将使所有内容都进入标签内

  • 问题内容: 我正在使用Python绑定来运行Selenium WebDriver。 我知道我可以像这样抓取网络元素… 而且我知道我可以通过…获得完整的页面资源 但是无论如何,有没有获得“元素来源”? Python的Selenium Webdriver文档基本上不存在,我在代码中看不到任何能够启用该功能的东西。 对访问元素(及其子元素)的HTML的最佳方法有何想法? 问题答案: 您可以读取属性以获取

  • 问题内容: 我正在查看的页面包含: 我想获取div中的所有文本,除了中的文本。(我想获得“文本1”,“文本3”和“文本4”)。可能有几个元素,或者根本没有。而且可能有一些元素,甚至一个元素都在另一个元素之中,或者根本没有。 我想通过获取div的所有html源并使用正则表达式删除元素来做到这一点。但是selenium.get_text不会返回html,而只是返回文本(全部!)。 我知道我可以使用正则

  • 我有上面的编码来提取使用硒 - 蟒蛇的href链接。我想提取每个人的个人资料“董事会成员”中的内容。我知道如何逐个提取它们,但不知道如何编写循环来执行此操作。 以下是我的代码: 任何想法都很感谢!

  • 问题内容: 如何使用JavaScript获取HTML页面的标题? 问题答案: 用途: