当前位置: 首页 > 知识库问答 >
问题:

试图从某个span类中提取文本

袁泓
2023-03-14

我一直试图打印在网站上的标记中找到的文本。我所尝试的不给我错误的一切都返回为空。什么都不印。

这是我的代码:

import time
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException
import ssl
from twilio.rest import Client
from twilio.rest import TwilioRestClient
browser = webdriver.Chrome()
browser.get(('https://www.hubzu.com/property/9007091467618-3632-Stokes-Drive-Sarasota-FL-34232'))
propertyname = browser.find_element_by_css_selector('span.h1')
propertyName1 = propertyname.text

print(propertyName1)

下面是我试图从中提取的span类:

<span class="h1">
<span id="streetName" class="header_bold propStreetAddress">
3632
Stokes Drive</span><span>, Sarasota, FL 34232</span>
</span>

共有3个答案

谷梁宏恺
2023-03-14

它可能不适合所有人,但在这种情况下,您可以只使用请求和bs4

from bs4 import BeautifulSoup as bs
import requests

r = requests.get('https://www.hubzu.com/property/9007091467618-3632-Stokes-Drive-Sarasota-FL-34232', headers = {'User-Agent' : 'Mozilla/5.0'})
soup = bs(r.content, 'lxml')
print(soup.select_one('.img-responsive')['alt'])
邹胜泫
2023-03-14

正在发生的是,有两个span标记具有类h1。第一个是隐藏的。这就是您得到空结果的原因,因为find_element返回定位器找到的第一个元素。

请尝试以下操作:

browser.get(('https://www.hubzu.com/property/9007091467618-3632-Stokes-Drive-Sarasota-FL-34232'))
propertyname = browser.find_element_by_css_selector('div.row.header-top-navigation span.h1')
print(propertyname.text)
郎星汉
2023-03-14

使用BeautifulSoup刮取更复杂的HTML代码段要简单得多:

from bs4 import BeautifulSoup as soup
from selenium import webdriver
d = webdriver.Chrome()
d.get('https://www.hubzu.com/property/9007091467618-3632-Stokes-Drive-Sarasota-FL-34232')
print(soup(d.page_source, 'html.parser').find('span', {'class':'h1'}).text)

输出:

'\n\n3632\nStokes Drive, Sarasota, FL 34232\n'
 类似资料:
  • 需要从以下来源提取信息: 试过: 得到0个结果。问题只出在跨类上。JSOUP 1.7.2。

  • 我这里有这个html 我想检查span类是否包含值2013。我应该如何编写xpath? 这些是我到目前为止尝试过的,根据Firepath,它们要么无效,要么没有匹配的节点。

  • 假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。 我想做的是从这个PDF中提取文本。这不是“第一代”pdf,因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。 PDFBox的iText中是否有允许检索此数据的功能?如果可能的话,我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。 请注意,我不是在谈

  • 我有一个HTML树,看起来如下所示: 我试图用以下XPath表达式从span中提取所有文本: 然而,这种方法只返回第一个文本行,直到中断?问题是:为了提取HTML span标记的全文内容,我将如何以正确的方式处理这个问题?我将非常感谢任何帮助,并预先感谢您的支持。

  • 我知道以前也有人问过类似的问题,但是这些问题已经过时了(有些问题可以追溯到2006年)。 我有一个. net 3.5应用程序(w/iTextSharp 5),我正在转换为. net核心(iText 7),它从联邦快递跟踪文档中提取签名,通过SOAP服务以字节[]数组发送。这段代码多年来一直运行良好,只是略有更新。从联邦快递返回的PDF文档中有几个图像,但签名块不是110x46图像(这是pdf文件中

  • 您好,我想得到的值以下的"交联",但我不知道如何做到这一点。 我正在使用Jsoup,下面是我的代码: 这就是我所拥有的: 你有什么想法可以得到价值,而不是“cotation”? 提前谢谢。