当前位置: 首页 > 知识库问答 >
问题:

无法提取日期值从网站与Python和美丽的汤

许奇
2023-03-14

我想从一个网站上提取日期。我想知道新闻文章发表的日期/时间。这是我的代码:

从bs4导入组导入请求

url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')


date_tag = 'div#middle p' # this gives me all the paragraphs
date = soup.select(date_tag)
print(date)

您也可以尝试使用此网站:

url = 'http://www.embrach.ch/de/aktuell/aktuellesinformationen/?action=showinfo&info_id=1098080'

请查看url,这是我想浏览的网站,我想获取的日期/时间是:13:05:28 26.11。2020年

这是我的css选择器,它只给我段落,但日期/时间不在段落中,而是在字体标记中。

date_tag = 'div#middle p'

但当我将css选择器设置为:

date_tag = 'div#middle font'

我得到[]

是否可以提取不在任何子标记中的数据?

共有2个答案

柴嘉禧
2023-03-14

您还必须提取整个文本,因为它们都是相同的元素。但是你可以做的是取这个元素,因为它基本上是一样的,除了几分钟,我认为这并不重要。如果您在选择h1元素方面需要帮助,请告诉我

艾昊明
2023-03-14

如果抓取这些元素,您会注意到date是的下一个同级节点

代码:

import requests
from bs4 import BeautifulSoup

url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

date = soup.find_all('div',{'id':'middle'})
print(date)

for each in date:
    print(each.find('h1').nextSibling.split(':',1)[-1].strip())

输出:

13:05:28 26.11.2020

 类似资料:
  • 我试图提取搜索关键字从SOAP xml模式与美丽的汤,不知道如何提取值属性。 我已经尝试使用但它不会让我提取value属性。 这是我到目前为止所拥有的: 这就是我有问题的地方。根据美丽的汤留档,这应该输出所有的“值”属性。 如您所见,我试图从所有xs:enumeration标记中的value属性中获取文本。最终结果将是level1的搜索词列表。即。: (蚀变、火成、变质、未发现、矿石、沉积岩、矿脉

  • 问题内容: 我正在尝试从Google搜索结果中提取链接。检查元素告诉我,我感兴趣的部分具有“ class = r”。第一个结果如下所示: 要提取“ href”,我要做: 但是我意外地得到: 我想要的地方: 属性“ ping”似乎使它感到困惑。有任何想法吗? 问题答案: 发生了什么? 如果您打印响应内容(即),则会看到您得到的HTML完全不同。页面源和响应内容不匹配。 因为内容是动态加载的,所以 不

  • 我希望从< code>div内的标题和< code >内的文本中提取文本字符串 我可以用<code>汤得到标题。h1</code>,但我想获得特定于div<code>中的<code>h1</code> 超文本标记语言:

  • 我试图使用美丽的汤抓取newegg的产品名称、描述、价格和图像。我有以下bs4.element.标签类型,我想从标签中提取“src”链接。以下是我的标签: 我怎样才能提取 从这个标签?我试过了 但我收到了Keyerror。

  • 我试图抓取这个网站:https://www.senate.gov/general/contact_information/senators_cfm.cfm 我的代码: 问题是它实际上并没有到达网站。我在soup var中得到的HTML根本不是正确网页中的HTML。 我不知道从这里去哪里!任何和所有的帮助都将不胜感激。

  • 我想提取新闻文章在网站上发表的日期。对于某些网站,我有确切的html元素,其中日期/时间为(div,p,time),但在某些网站上,我没有: 以下是一些网站(德国网站)的链接: (2020年11月3日)http://www.linden.ch/de/aktuelles/aktuellesinformationen/?action=showinfo (2020年12月1日)http://www.re