当前位置：首页 > 面试题库 >

美丽的汤来解析URL以获取另一个URL数据

毕黎昕

2023-03-14

问题内容：

我需要解析一个URL以获得链接到详细信息页面的URL列表。然后，需要从该页面获取该页面的所有详细信息。我需要这样做，因为详细信息页面的URL不会定期增加和更改，但是事件列表页面却保持不变。

基本上：

example.com/events/
    <a href="http://example.com/events/1">Event 1</a>
    <a href="http://example.com/events/2">Event 2</a>

example.com/events/1
    ...some detail stuff I need

example.com/events/2
    ...some detail stuff I need

问题答案：

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://yahoo.com').read()
soup = BeautifulSoup(page)
soup.prettify()
for anchor in soup.findAll('a', href=True):
    print anchor['href']

它会给你URL列表。现在，您可以遍历这些URL并解析数据。

inner_div = soup.findAll("div", {"id": "y-shade"}) 这是一个例子。您可以阅读BeautifulSoup教程。

类似资料：

美丽的汤 - 从另一个标签内的标签中获取文本

我正在尝试使用漂亮的汤解析网页（这是我有生以来第一次），我遇到了一个奇怪的错误。html结构中的标记中有一个标记，我一直收到错误 html标签的结构如下：页面上项目的整个网格都在div类"properties_reviews"中，然后进入div类"preview"中，用于特定项目，该类"preview"还有两个类：照片的"preview-media"和我需要解析的文本信息的"preview-con
使用美丽的汤解析< ul >标签

考虑一下这段代码：它只打印“divTag” 更新: 我基本上想在'a'标签中提取“字符串”值。
从美丽的汤中提取href

问题内容：我正在尝试从Google搜索结果中提取链接。检查元素告诉我，我感兴趣的部分具有“ class = r”。第一个结果如下所示：要提取“ href”，我要做：但是我意外地得到：我想要的地方：属性“ ping”似乎使它感到困惑。有任何想法吗？问题答案：发生了什么？如果您打印响应内容（即），则会看到您得到的HTML完全不同。页面源和响应内容不匹配。因为内容是动态加载的，所以不
美丽的汤获得多页文本

我试图抓取德国聚会的新闻页面，并将所有信息存储在数据框中（“蟒蛇初学者”）。当我想将整个文本甚至日期存储到数据框中时，只存在一个小问题。似乎只有文本的最后一个元素（p... /p）将被存储在行中。我认为问题的出现是因为循环上的迭代是误导的。
如何解析URL以获取它的参数在Groovy？

我不熟悉groovy脚本，并期待解析URL并打印其参数。此网址是： https://www.google.com/?aaa=111 如何从 URL 获取 dd 参数？我感谢你的帮助！
使用美丽汤抓取网页

我试图抓取这个网站：https://www.senate.gov/general/contact_information/senators_cfm.cfm 我的代码：问题是它实际上并没有到达网站。我在soup var中得到的HTML根本不是正确网页中的HTML。我不知道从这里去哪里！任何和所有的帮助都将不胜感激。

相关阅读

美丽的汤findAll找不到全部美丽汤结果缺少零件解析URL字符串以获取键值的最佳方法？获取URL参数的值美丽的汤并通过ID提取div及其内容

相关文章

数美数据分析 HTML URL Java URL 商汤一面商汤NLP一面

相关问答

从美丽汤标签中提取src 从美丽的汤xml中提取属性“值”刮多个页面在python与美丽的汤提取标题和强标签与美丽汤蟒蛇美丽汤在div标签本身中提取数据

相关工具

URL-Detector URL Parser URL-Shortner google-url URL Snake

相关文档

深入解析 Go Tornado 源码解析深度解析 ECMAScript 6 用 Go 来做以太坊开发 Python 和 Pandas 数据分析教程