当前位置: 首页 > 知识库问答 >
问题:

Scrapy,Python:无法使用firebug中的xpath提取数据

东方权
2023-03-14

我对web刮刮、scrapy和Python都是新手。我试着从这个网站页面刮数据。

我想提取页面页脚中给出的电子邮件id:info@bikramyogasg.com,并尝试使用两个XPath在scrapy Spider中提取:

  1. 相对:id(“gkfooternav”)/div/p/span/a/text()
  2. 绝对:/html/body/div[4]/div1/div/div/div/p/span/a/text()

我试过使用和不使用'text()'的最后一个组件的这些XPath。这些都没有工作,蜘蛛返回一个空列表。

但是,当我用xpath检查器检查这些时,我得到了正确的值。不知道这里出了什么问题。有人能帮忙吗?

谢谢,图希娜

共有1个答案

龚凯泽
2023-03-14

如果您解析该站点并查看内容,您会看到来自该站点的消息:

This e-mail address is being protected from spambots. You need JavaScript enabled to view it.

因此您需要执行JavaScript来访问电子邮件地址。或者,您可以从文本上面的JavaScript中提取电子邮件地址,并相应地转换它--甚至不执行任何JavaScript。

 类似资料:
  • 大家好,我想使用scrapy中的xpath从html块中提取所有文本 假设我们有这样一个块: 我想将文本摘录为[“blahblah”,“blahblah”,“blihblih”]。我希望xpath在div节点中递归查找文本。我听说过try:,但它不提取嵌套元素。 干杯!SEB

  • 我试图用scrapy for Python2从DIV中提取数据。我现在意识到不能在提取的div XPath中使用像\d这样的regex命令。我怎么才能解决这个问题呢?对于\d{,2},我想告诉python“嘿,这里应该有一个数值介于1-100之间的数字”,谢谢 URL中的html代码片段如下: item[“date”]=span class=“date”>1月12日/span> item[“pri

  • 我正在尝试使用Scrapy在python上用一个简单的蜘蛛代码提取web新闻的每个标题的文本。我将html代码的一部分留在下面 null null 因此,我想摘录H4中的文本。为此,我使用Scrapy在python中编写了以下代码: 在PowerShell中运行代码时没有错误。然而,它并没有废弃任何东西 我在下面留下部分留言 该代码在其他网页中工作。我不知道我是否正确地编写了xpath(我尝试过用

  • 错误msg: 我也尝试过将标签名称作为按钮。 超文本标记语言: 我的代码:

  • 本文向大家介绍python Xpath语法的使用,包括了python Xpath语法的使用的使用技巧和注意事项,需要的朋友参考一下 一、XMl简介 (一)什么是 XML XML 指可扩展标记语言(EXtensible) XML 是一种标记语言,很类似 HTML。 XML 的设计宗旨是传输数据,而非显示数据。 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的