问题：

无法提取日期值从网站与Python和美丽的汤

许奇

2023-03-14

我想从一个网站上提取日期。我想知道新闻文章发表的日期/时间。这是我的代码：

从bs4导入组导入请求

url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')


date_tag = 'div#middle p' # this gives me all the paragraphs
date = soup.select(date_tag)
print(date)

您也可以尝试使用此网站：

url = 'http://www.embrach.ch/de/aktuell/aktuellesinformationen/?action=showinfo&info_id=1098080'

请查看url，这是我想浏览的网站，我想获取的日期/时间是：13:05:28 26.11。2020年

这是我的css选择器，它只给我段落，但日期/时间不在段落中，而是在字体标记中。

date_tag = 'div#middle p'

但当我将css选择器设置为：

date_tag = 'div#middle font'

我得到[]

是否可以提取不在任何子标记中的数据？

共有2个答案

柴嘉禧

2023-03-14

您还必须提取整个文本，因为它们都是相同的元素。但是你可以做的是取这个元素，因为它基本上是一样的，除了几分钟，我认为这并不重要。如果您在选择h1元素方面需要帮助，请告诉我

艾昊明

2023-03-14

如果抓取这些元素，您会注意到date是的下一个同级节点

代码：

import requests
from bs4 import BeautifulSoup

url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

date = soup.find_all('div',{'id':'middle'})
print(date)

for each in date:
    print(each.find('h1').nextSibling.split(':',1)[-1].strip())

输出：

13:05:28 26.11.2020

类似资料：

从美丽的汤xml中提取属性“值”

我试图提取搜索关键字从SOAP xml模式与美丽的汤，不知道如何提取值属性。我已经尝试使用但它不会让我提取value属性。这是我到目前为止所拥有的：这就是我有问题的地方。根据美丽的汤留档，这应该输出所有的“值”属性。如您所见，我试图从所有xs:enumeration标记中的value属性中获取文本。最终结果将是level1的搜索词列表。即。：（蚀变、火成、变质、未发现、矿石、沉积岩、矿脉
从美丽的汤中提取href

问题内容：我正在尝试从Google搜索结果中提取链接。检查元素告诉我，我感兴趣的部分具有“ class = r”。第一个结果如下所示：要提取“ href”，我要做：但是我意外地得到：我想要的地方：属性“ ping”似乎使它感到困惑。有任何想法吗？问题答案：发生了什么？如果您打印响应内容（即），则会看到您得到的HTML完全不同。页面源和响应内容不匹配。因为内容是动态加载的，所以不
提取标题和强标签与美丽汤

我希望从< code>div内的标题和< code >内的文本中提取文本字符串我可以用＜code＞汤得到标题。h1＜/code＞，但我想获得特定于div＜code＞中的＜code＞h1＜/code＞超文本标记语言：
从美丽汤标签中提取src

我试图使用美丽的汤抓取newegg的产品名称、描述、价格和图像。我有以下bs4.element.标签类型，我想从标签中提取“src”链接。以下是我的标签：我怎样才能提取从这个标签？我试过了但我收到了Keyerror。
使用Python从多个网页中提取日期

我想提取新闻文章在网站上发表的日期。对于某些网站，我有确切的html元素，其中日期/时间为（div，p，time），但在某些网站上，我没有：以下是一些网站（德国网站）的链接：（2020年11月3日）http://www.linden.ch/de/aktuelles/aktuellesinformationen/?action=showinfo （2020年12月1日）http://www.re
使用美丽汤抓取网页

我试图抓取这个网站：https://www.senate.gov/general/contact_information/senators_cfm.cfm 我的代码：问题是它实际上并没有到达网站。我在soup var中得到的HTML根本不是正确网页中的HTML。我不知道从这里去哪里！任何和所有的帮助都将不胜感激。

无法提取日期值从网站与Python和美丽的汤

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档