我一直试图用BS刮这个网页,但没有用。有人能帮帮我吗?我不确定这个网页有什么问题,或者我的代码有什么问题。
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup
my_url = "https://www.cea.gov.sg/Custom/CEA/PublicRegister/Page/PublicRegisterDetail.aspx?UserId=ae0cdf1d-a30c-4c8c-9f80-b2cec17b4bd9"
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = Soup(page_html, "html.parser")
nameList2 = page_soup.findAll("span")
print (nameList2.string[1])
你可以这样试试。我没有发现任何问题。
import requests
from bs4 import BeautifulSoup
response = requests.get("https://www.cea.gov.sg/Custom/CEA/PublicRegister/Page/PublicRegisterDetail.aspx?UserId=ae0cdf1d-a30c-4c8c-9f80-b2cec17b4bd9")
soup = BeautifulSoup(response.text,"html.parser")
for item in soup.select(".form-wrap"):
Name = item.select_one("#FtPublicRegisterDetail_LblName").get_text()
Agent_Name = item.select_one("#FtPublicRegisterDetail_LblEstAgentName").get_text()
print(Name, Agent_Name)
结果:
A R N MADANAGOPALAN (MADAN) PROPNEX REALTY PTE LTD
如果您愿意,请仅使用“span”:
import requests
from bs4 import BeautifulSoup
response = requests.get("https://www.cea.gov.sg/Custom/CEA/PublicRegister/Page/PublicRegisterDetail.aspx?UserId=ae0cdf1d-a30c-4c8c-9f80-b2cec17b4bd9")
soup = BeautifulSoup(response.text,"html.parser")
doc_list = soup.select("span")
for item in range(len(doc_list)):
names = soup.select("span")[item].text
print(names)
结果:
A R N MADANAGOPALAN (MADAN)
R016176H
01 Jan 2013 to 31 Dec 2017
NA
NA
NA
PROPNEX REALTY PTE LTD
我正在为Java开发人员使用最新的Eclipse IDE中的最新jsoup(1.13.1)(包括孵化组件)版本:2020-09(4.17.0)构建ID:20200910-1200。 我试图解析一个非常具体的网站,但没有成功。在我执行这些行之后:doc=jsoup.connect(“http://pokehb.pw/%d7%a2%d7%95%d7%a0%d7%94/21/%d7%a4%d7%a8%d
我正在使用此代码: 我试图做的是获取网站的原始html。但是,当我运行代码时,我得到了这个错误: 我正在使用这段代码成功地获取多个其他网站的HTML,但这段代码不起作用。 有什么问题?我该如何解决? 编辑:在firefox中加载站点,从中获取cookie并将其传入: 使页面加载,但这并不好,因为它不能一遍又一遍地使用。
最近我一直在用Python和靓汤学习网页刮刮乐。然而,当我试图刮下下面的页面时,我遇到了一点麻烦: http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签,但我找不到任何方法来获取数据,尽管我花了很多时间在网上拖网。 我试着在网上看了几本指南,但似乎没有一本奏效。我尝试将页面转换为XML和JSON,但仍然找不到数据。 我现在有点手足无
我在stackoverflow进行了彻底的搜索,但没有找到合适的解决方案。我正在清理一个遗留的网站,我想提取所有的标签和输入名称。旧网页的html格式如下所示 我想使用python提取输出,并将beautifulsoup作为 我确实尝试了findall方法,但失败了,因为我需要标签(文本)和输入标签名称一起,有没有解决方案与标签文本的多个html标签报废?谢谢 我是一个新的网页刮削和这里的代码,我
问题内容: 我正尝试在此网站上搜索selenium表中的清单。我是新手,并编写了以下代码: 但是,我可以获取以下标签,但不能获取其中的数据。 我以前也尝试过BS4进行刮擦,但失败了。任何帮助深表感谢。 问题答案: 该 结果是在一个iframe -切换到它,然后得到: 我还要添加一个等待表加载的方法:
我试图刮这个网站:https://ec.europa.eu/research/mariecurieactions/how-to/find-job_en使用Python。 首先,我注意到我感兴趣的表实际上位于以下url:https://ec.europa.eu/assets/eac/msca/jobs/import-jobs_en.htm 然而,请求BS4只给我超文本标记语言的页面源。我假设这是因为