问题：

无法使用Python Beautiful Soup刮取特定网站

冯淳

2023-03-14

我一直试图用BS刮这个网页，但没有用。有人能帮帮我吗？我不确定这个网页有什么问题，或者我的代码有什么问题。

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup

my_url = "https://www.cea.gov.sg/Custom/CEA/PublicRegister/Page/PublicRegisterDetail.aspx?UserId=ae0cdf1d-a30c-4c8c-9f80-b2cec17b4bd9"

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = Soup(page_html, "html.parser")
nameList2 = page_soup.findAll("span")

print (nameList2.string[1])

共有1个答案

吴高畅

2023-03-14

你可以这样试试。我没有发现任何问题。

import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.cea.gov.sg/Custom/CEA/PublicRegister/Page/PublicRegisterDetail.aspx?UserId=ae0cdf1d-a30c-4c8c-9f80-b2cec17b4bd9")
soup = BeautifulSoup(response.text,"html.parser")
for item in soup.select(".form-wrap"):
    Name = item.select_one("#FtPublicRegisterDetail_LblName").get_text()
    Agent_Name = item.select_one("#FtPublicRegisterDetail_LblEstAgentName").get_text()
    print(Name, Agent_Name)

结果：

A R N MADANAGOPALAN (MADAN) PROPNEX REALTY PTE LTD

如果您愿意，请仅使用“span”：

import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.cea.gov.sg/Custom/CEA/PublicRegister/Page/PublicRegisterDetail.aspx?UserId=ae0cdf1d-a30c-4c8c-9f80-b2cec17b4bd9")
soup = BeautifulSoup(response.text,"html.parser")

doc_list = soup.select("span")

for item in range(len(doc_list)):
    names = soup.select("span")[item].text
    print(names)

结果：

A R N MADANAGOPALAN (MADAN)
R016176H
01 Jan 2013 to 31 Dec 2017
NA
NA
NA
PROPNEX REALTY PTE LTD

类似资料：

jsoup-无法获取特定网站

我正在为Java开发人员使用最新的Eclipse IDE中的最新jsoup(1.13.1)（包括孵化组件）版本：2020-09(4.17.0)构建ID：20200910-1200。我试图解析一个非常具体的网站，但没有成功。在我执行这些行之后：doc=jsoup.connect（“http://pokehb.pw/%d7%a2%d7%95%d7%a0%d7%94/21/%d7%a4%d7%a8%d
无法使用URLConnection连接到特定网站，读取超时

我正在使用此代码：我试图做的是获取网站的原始html。但是，当我运行代码时，我得到了这个错误：我正在使用这段代码成功地获取多个其他网站的HTML，但这段代码不起作用。有什么问题？我该如何解决？编辑：在firefox中加载站点，从中获取cookie并将其传入：使页面加载，但这并不好，因为它不能一遍又一遍地使用。
用Python进行网页刮取

最近我一直在用Python和靓汤学习网页刮刮乐。然而，当我试图刮下下面的页面时，我遇到了一点麻烦： http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签，但我找不到任何方法来获取数据，尽管我花了很多时间在网上拖网。我试着在网上看了几本指南，但似乎没有一本奏效。我尝试将页面转换为XML和JSON，但仍然找不到数据。我现在有点手足无
无法刮取带有多个html标记的网页

我在stackoverflow进行了彻底的搜索，但没有找到合适的解决方案。我正在清理一个遗留的网站，我想提取所有的标签和输入名称。旧网页的html格式如下所示我想使用python提取输出，并将beautifulsoup作为我确实尝试了findall方法，但失败了，因为我需要标签（文本）和输入标签名称一起，有没有解决方案与标签文本的多个html标签报废？谢谢我是一个新的网页刮削和这里的代码，我
用selenium刮网

问题内容：我正尝试在此网站上搜索selenium表中的清单。我是新手，并编写了以下代码：但是，我可以获取以下标签，但不能获取其中的数据。我以前也尝试过BS4进行刮擦，但失败了。任何帮助深表感谢。问题答案：该结果是在一个iframe -切换到它，然后得到：我还要添加一个等待表加载的方法：
使用python刮取动态javascript内容网页

我试图刮这个网站：https://ec.europa.eu/research/mariecurieactions/how-to/find-job_en使用Python。首先，我注意到我感兴趣的表实际上位于以下url：https://ec.europa.eu/assets/eac/msca/jobs/import-jobs_en.htm 然而，请求BS4只给我超文本标记语言的页面源。我假设这是因为

无法使用Python Beautiful Soup刮取特定网站

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档