当前位置: 首页 > 面试题库 >

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

刘修能
2023-03-14
问题内容

我要在页面https://www.reddit.com/search?q=Expiration&type=link&sort=new上抓取所有问题的链接和标题。元素具有以下结构:

<a data-click-id="body" class="SQnoC3ObvgnGjWt90zD9Z" href="/r/excel/comments/ayiahc/calculating_expiration_dates_previous_solution_no/">
    <h2 class="s1okktje-0 cDxKta">
        <span style="font-weight:normal">Calculating Expiration Dates - Previous Solution No Longer Works</span>
    </h2>
</a>

questions = driver.find_elements_by_xpath('//a[@data-click- id="body"]')习惯于获取问题,然后通过进行迭代for。我很高兴使用它question.get_attribute('href')来获取链接。

不过,我不知道如何提取里面的标题span(从question)。

有谁知道如何做到这一点?


问题答案:

请尝试以下。

question.find_element_by_tag_name('span').text

或简单地

question.text


 类似资料:
  • 问题内容: 对于我的网站,我想添加一个新功能。 我希望用户能够上传他的书签备份文件(如果可能的话,可以从任何浏览器上传),这样我就可以将其上传到他们的个人资料,而他们不必手动插入所有文件… 我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索? 使用的搜索选项和如何从原始HTML文件提取数据?这是与我最相关的问题,因此不再赘述。 我真的不介意它是否使用jq

  • 问题内容: 如何使用Python检索网页的页面标题(标题html标签)? 问题答案: 我将始终将lxml用于此类任务。您也可以使用beautifulsoup。 根据评论进行编辑:

  • 是否有可能获得所有符合搜索条件(如投票数、语言、发行年份等)的标题的IMDb ID? 我的首要任务是编制一份清单,列出所有被归类为故事片的IMDb身份证,并有超过25,000张选票(也就是那些有资格的人出现在前250名名单上)。在发布这篇文章时,有4296部电影符合这一标准。 (如果您不熟悉IMDb ID:它是与数据库中的每个电影/人物/角色/等相关联的唯一7位数代码。例如,对于电影Drive(2

  • 我目前正在实现一个搜索功能来从wordpress搜索帖子 我想通过标签、标题来搜索文章,并以JSON的形式返回 我发现了一个将结果生成为JSON(JSON API)的插件 http://wordpress.org/plugins/json-api/other_notes/#2.1.-Core-controller-methods 在该插件中,有一个get_posts函数,可以返回支持WP_quer

  • 问题内容: 如何使用JavaScript获取HTML页面的标题? 问题答案: 用途:

  • 问题内容: 我想创建一个页面,其中列出我网站上的所有图像,并附带标题和替代表示。 我已经给我写了一个小程序查找和加载所有的HTML文件,但现在我停留在如何提取,并依据此HTML: 我猜应该用一些正则表达式来完成,但是由于标签的顺序可能会有所不同,而且我需要所有标签,所以我真的不知道如何以一种优雅的方式解析它(我可以通过char方式,但这很痛苦)。 问题答案: 编辑:现在我知道了 使用正则表达式解决