当前位置: 首页 > 知识库问答 >
问题:

r从html页面中删除web

廖诚
2023-03-14

我试着从这一页中刮出博彩赔率:

https://www.interwetten.com/en/sportsbook/top-leagues?toplinkid=1

interwetten <- read_html("https://www.interwetten.com/en/sportsbook/top-leagues?topLinkId=1") 
bundesliga <- html_nodes(interwetten, xpath = '//*[@id="TBL_Content_1019"]')  
bundesliga_teams <- html_nodes(bundesliga, "span")

现在我得到的输出是:

[1] <span id="ctl00_cphMain_UCOffer_LeagueList_rptLeague_ctl00_ucBettingContainer_lblClose" clas ...
[2] <span itemscope="itemscope" itemprop="location" itemtype="http://schema.org/Place"><meta ite ...
[3] <span itemprop="name">VfB Stuttgart</span>
[4] <span>X</span>

现在我想提取每个中的团队名,但我不知道如何提取。我尝试使用节点或attrs,但没有效果。

共有1个答案

沃弘图
2023-03-14

您可以使XPath选择器更加具体,然后使用html_text,例如。

library(rvest)

interwetten <- 'https://www.interwetten.com/en/sportsbook/top-leagues?topLinkId=1' %>% 
    read_html() 

teams <- interwetten %>% 
    html_nodes(xpath = '//*[@id="TBL_Content_1019"]//span[@itemprop="name"]') %>% 
    html_text()

teams
#>  [1] "VfB Stuttgart"   "1. FC Cologne"   "Mainz 05"       
#>  [4] "Hamburger SV"    "Hertha BSC"      "Schalke 04"     
#>  [7] "Hannover 96"     "Frankfurt"       "Hoffenheim"     
#> [10] "Augsburg"        "Bayern Munich"   "Freiburg"       
#> [13] "Dortmund"        "RB Leipzig"      "Leverkusen"     
#> [16] "Wolfsburg"       "Werder Bremen"   "Monchengladbach"
 类似资料:
  • 问题内容: 我目前正在使用iText,我想知道是否可以从PDF文件删除页面? 我已经用阅读器等打开了它,我想先删除一个页面,然后再将其保存回新文件。我怎样才能做到这一点? 问题答案: “删除”页面的“更好”方式正在 这意味着我们只会选择1-5、10-12页,有效地“删除” 6-9页。

  • 问题内容: 我正在使用Selenium WebDriver(ChromeDriver)。我需要在处理后(从DOM模型中)从页面中删除一些元素。 例如,我有以下元素: 如何从浏览器DOM模型中删除? 如何使用Selenium WebDriver在Java中实现它?请举一个例子。 问题答案: 您必须执行JavaScript代码才能进行DOM更改。

  • 问题内容: 有没有一种简单的方法可以在JavaScript中获取html字符串并去除html? 问题答案: 如果您在浏览器中运行,那么最简单的方法就是让浏览器为您完成… 注意:正如人们在评论中所指出的那样,如果您不控制HTML的源代码(例如,请勿在可能来自用户输入的任何内容上运行此代码),则最好避免这种情况。对于这些情况,您仍然可以让浏览器为您完成工作-

  • 问题内容: 如何从静态页面的网址中删除? 另外,我需要将任何网址重定向到没有该网址的网址。(即到)。 问题答案: 感谢您的答复。我已经解决了我的问题。假设我的页面在下,则适用以下.htaccess 规则。

  • 问题内容: 有没有一种简单的方法可以在JavaScript中获取html字符串并去除html? 问题答案: 如果您在浏览器中运行,那么最简单的方法就是让浏览器为您完成… 注意:正如人们在评论中所指出的那样,如果您不控制HTML的源代码(例如,请勿在可能来自用户输入的任何内容上运行此代码),则最好避免这种情况。对于这些情况,您仍然可以让浏览器为您完成工作。

  • 下面是我的代码: navbarpanel.java navbarpanel.html