当前位置: 首页 > 面试题库 >

如何使用Python从HTML获得href链接?

孙海
2023-03-14
问题内容

import urllib2

website = "WEBSITE"
openwebsite = urllib2.urlopen(website)
html = getwebsite.read()

print html

到目前为止,一切都很好。

但是我只希望纯文本HTML中的href链接。我怎么解决这个问题?


问题答案:

尝试使用Beautifulsoup:

from BeautifulSoup import BeautifulSoup
import urllib2
import re

html_page = urllib2.urlopen("http://www.yourwebsite.com")
soup = BeautifulSoup(html_page)
for link in soup.findAll('a'):
    print link.get('href')

如果您只想要以开头的链接http://,则应使用:

soup.findAll('a', attrs={'href': re.compile("^http://")})

在带有BS4的Python 3中,它应该是:

from bs4 import BeautifulSoup
import urllib.request

html_page = urllib.request.urlopen("http://www.yourwebsite.com")
soup = BeautifulSoup(html_page, "html.parser")
for link in soup.findAll('a'):
    print(link.get('href'))


 类似资料:
  • 谢谢你的关注,也很抱歉我的英语不好。 我正在从中获取htmlhttp://flvxz.com/当我在输入框中输入一些单词并单击时。就像: 加载雅虎主页 搜索"某物"(输入某物词并单击按钮) 获取返回html MyWebsit通过javaScrip返回消息 这是我的密码 那么,我怎样才能得到新的html呢?我尝试如下,不工作。 我的问题: 如何获取html 非常感谢你,我正在提高我的英语。。。

  • 我有一个元素列表,我正在使用JSOUP的方法attr()来获取href属性。下面是我的部分代码: 例如,当我使用搜索prase“test”时,attr(“href”)生成(列表的第一个): linkHref=https://www.tutorialspoint.com/software_testing/&sa=u&ved=0ahukewi_li-t69jtahxibxqkhu1kblaqfggtm

  • 我正在用Python做网页抓取。我需要获得所有搜索结果页面的链接。但是,我发现href值不是一个常规的html链接,而是如下所示的内容。如何获得正确的页面链接?谢谢

  • 问题内容: 我正在用Python练习Selenium,我想使用Selenium获取网页上的所有链接。 例如,我想要http://psychoticelites.com/上所有标签的属性中的所有链接。 我写了一个脚本,它正在工作。但是,它给了我对象地址。我尝试使用标签来获取值,但是,它不起作用。 我当前的脚本: 问题答案: 好吧,您只需要遍历列表即可: 返回元素列表(注意“ elements”的拼写

  • 问题内容: 我正在用Python练习Selenium,我想使用Selenium获取网页上的所有链接。 例如,我想要http://psychoticelites.com/上所有标签的属性中的所有链接。 我写了一个脚本,它正在工作。但是,它给了我对象地址。我尝试使用标签来获取值,但是,它不起作用。 我当前的脚本: 问题答案: 好吧,您只需要遍历列表即可: 返回元素列表(注意“ elements”的拼写

  • 我有一个html链接