使用Selenium从网页获取所有可见文本

孙池暝

2023-03-14

问题内容：

我整天一直在搜寻，找不到答案，因此如果已经回答了，请提前道歉。

我正在尝试从大量不同的网站中获取所有可见的文本。原因是我要处理文本以最终对网站进行分类。

经过几天的研究，我认为硒是我最好的机会。我发现一种使用Selenium来捕获所有文本的方法，不幸的是同一文本被多次捕获：

from selenium import webdriver
import codecs

filen = codecs.open('outoput.txt', encoding='utf-8', mode='w+')

driver = webdriver.Firefox()

driver.get("http://www.examplepage.com")

allelements = driver.find_elements_by_xpath("//*")

ferdigtxt = []

for i in allelements:

      if i.text in ferdigtxt:
          pass
  else:
         ferdigtxt.append(i.text)
         filen.writelines(i.text)

filen.close()

driver.quit()

该if内部条件for环路消除同一文本多次读取的问题的尝试-但是，它没有，只是作为计划在某些网页的工作。（这也使脚本慢很多）

我猜我的问题的原因是-当询问元素的内部文本时-我也得到了嵌套在所讨论元素内部的元素的内部文本。

有没有办法解决？我是否掌握某种内部元素？还是完全不同的方式可以使我实现自己的目标？任何帮助都将不胜感激，因为我对此一无所知。

编辑：之所以使用Selenium而不是机械化和美丽的汤是因为我想要JavaScript招标文本

问题答案：

使用lxml，您可以尝试如下操作：

import contextlib
import selenium.webdriver as webdriver
import lxml.html as LH
import lxml.html.clean as clean

url="http://www.yahoo.com"
ignore_tags=('script','noscript','style')
with contextlib.closing(webdriver.Firefox()) as browser:
    browser.get(url) # Load page
    content=browser.page_source
    cleaner=clean.Cleaner()
    content=cleaner.clean_html(content)    
    with open('/tmp/source.html','w') as f:
       f.write(content.encode('utf-8'))
    doc=LH.fromstring(content)
    with open('/tmp/result.txt','w') as f:
        for elt in doc.iterdescendants():
            if elt.tag in ignore_tags: continue
            text=elt.text or ''
            tail=elt.tail or ''
            words=' '.join((text,tail)).strip()
            if words:
                words=words.encode('utf-8')
                f.write(words+'\n')

除了图像中的文字和随时间变化的某些文字（使用javascript完成并刷新）之外，这似乎可以获取www.yahoo.com上几乎所有的文字。

使用Selenium从网页获取所有可见文本

相关阅读

相关文章

相关问答

相关工具

相关文档