当前位置: 首页 > 面试题库 >

使用XML包将html表刮成R数据帧

陆浩博
2023-03-14
问题内容

如何使用XML包抓取html表?

维基百科页面为例。我想在R中阅读它,并获得“巴西与国际足联认可的球队进行的所有比赛的清单”表作为data.frame。我怎样才能做到这一点?


问题答案:

…或更短的尝试:

library(XML)
library(RCurl)
library(rlist)
theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

选择的表是页面上最长的表

tables[[which.max(n.rows)]]


 类似资料:
  • 我想用英超网站上的统计数据来做一个班级项目。这是网站:https://www.premierleague.com/stats/top/players/goals

  • 我对使用python有点陌生,我接到了一个任务,需要从表中抓取数据。我也不太懂html。我以前从来没有这样做过,花了几天时间研究各种刮桌子的方法。不幸的是,所有的例子都是一个看起来比我所处理的更简单的网页布局。我尝试了很多不同的方法,但没有一种方法允许我选择所需的表数据。 下面网页底部的“每日水位”选项卡下的表怎么刮? url=https://apps.wrd.state.or.us/apps/g

  • 理想情况下,我的最终数据帧将如下所示: 我已经挣扎了一段时间,现在让这个工作,并将感谢任何帮助。

  • 问题内容: 我需要帮助,以从R语言向SQL服务器写入一个简单的数据行。(使用RODBC或其他方式)。 问题答案: 您可以使用where写入所有数据(所有行)。这将在您的数据库中创建一个带有名称的表。 然后,您可以通过附加现有表。

  • 我对python和刮擦是新手,请帮助我如何从这个表中刮擦数据。对于登录,请转到公共登录,然后输入收件人和收件人日期。 数据模型:数据模型具有以下特定顺序和大小写的列:“record_date”、“doc_number”、“doc_type”、“role”、“name”、“apn”、“transfer_amount”、“county”和“state”。“角色”列可以是“授权人”,也可以是“授权人”,

  • 问题内容: 我想使用Jquery创建基于XML或JSON数据的HTML表单,并且我还计划验证可能为空或不正确的任何表单字段。 我想知道是否还有其他程序/函数动态地动态生成这种形式,以及实现该形式的最佳方法。任何最适合工作示例的jquery小部件或库将不胜感激 还有在这种情况下最好使用XML或JSON的哪些提要并解释原因? 谢谢 问题答案: 我发现其中一些可能会帮助您: 从JSON模式生成表单: h