当前位置: 首页 > 面试题库 >

BeautifulSoup:获取特定表的内容

年高洁
2023-03-14
问题内容

我当地的机场可耻地阻止了没有IE的用户,并且看起来很糟糕。我想编写一个Python脚本,该脚本每隔几分钟就会获取“到达和离开”页面的内容,并以更具可读性的方式显示它们。

我选择的工具是使网站相信我使用IE的机械化工具,以及BeautifulSoup来解析页面以获得航班数据表的工具。

老实说,我迷失在BeautifulSoup文档中,无法理解如何从整个文档中获取表(我知道它的标题),以及如何从该表中获取行列表。

有任何想法吗?


问题答案:

这不是您需要的特定代码,只是有关如何使用BeautifulSoup的演示。它找到ID为“ Table1”的表,并获取其所有tr元素。

html = urllib2.urlopen(url).read()
bs = BeautifulSoup(html)
table = bs.find(lambda tag: tag.name=='table' and tag.has_attr('id') and tag['id']=="Table1") 
rows = table.findAll(lambda tag: tag.name=='tr')


 类似资料:
  • 我能够在等式(1)中一个接一个地获得所有细节。 在示例中: 在HTML表格中,当我做等式(0)时,我得到GK,NS,PS。当我做等式(1)时,我得到99 88 55。 有没有一种方法可以让我使用JSOUP作为 现在我得到了两个不同的字符串数组。

  • 问题内容: 我正在尝试使用BeautifulSoup提取此数据表的第一和第三列。通过查看HTML,第一列具有一个标记。感兴趣的另一列具有作为标记。无论如何,我所能获得的就是带有标签的列的列表。但是,我只想要文本。 已经是列表,所以我不能使用。我不确定如何以另一种形式获得第一列的清单。 问题答案: 您可以尝试以下代码: 如您所见,代码只是连接到url并获取html,BeautifulSoup找到第一

  • 问题内容: 是否有可能使用twitter4j获得回复推文(或回复)的推文列表?Twitter网站和Android应用程序具有此功能。 问题答案: 这是我在welshare中使用的代码 第一部分获取打开时Twitter显示在tweet下方的所有tweet。其余部分负责对话,以防该推文是对其他推文的回复。 编辑:这将不再起作用,因为现在不使用Twitter API v 1

  • 问题内容: 我已经使用iText将表格内容导出为pdf。 这是我的代码: JSP: Servlet: 用过itextpdf-5.1.0.jar这是我的JSP页面。 从jsp获取字符串时, 我得到的内容与表td tr…相同,而不是实际值。 有什么帮助吗? 问题答案: 请看一下示例ParseHtmlTable1和ParseHtmlTable2。 他们创建以下PDF:html_table_1.pdf 和

  • 问题内容: 有没有一种方法可以从HTML文件中获取CSS类?示例片段: 完美的输出将是: 尽管这样可以: 问题答案: BeautifulSoup本身根本不解析CSS样式声明,但是您 可以 提取这些部分,然后使用专用的CSS解析器对其进行解析。 根据您的需求,有多个CSS解析器可用于python。我会选择cssutils(需要python 2.5或更高版本(包括python 3)),它在支持方面是最

  • 这是我第一次使用网页抓取。到目前为止,我能够导航并找到我想要的HTML部分。我也可以打印出来。问题是只打印文本,这不起作用。我在尝试时遇到以下错误: 这是我的代码: