当前位置：首页 > 面试题库 >

刮时如何避免加入节点中的所有文本

刘才俊

2023-03-14

问题内容：

当我从HTML或XML刮取几个相关的节点以提取文本时，所有文本都合并为一个长字符串，从而无法恢复单个文本字符串。

例如：

require 'nokogiri'

doc = Nokogiri::HTML(<<EOT)
<html>
  <body>
    <p>foo</p>
    <p>bar</p>
    <p>baz</p>
  </body>
</html>
EOT

doc.search('p').text # => "foobarbaz"

但是我想要的是：

["foo", "bar", "baz"]

抓取XML时也会发生相同的情况：

doc = Nokogiri::XML(<<EOT)
<root>
  <block>
    <entries>foo</entries>
    <entries>bar</entries>
    <entries>baz</entries>
  </block>
</root>
EOT

doc.search('entries').text # => "foobarbaz"

为什么会发生这种情况，我该如何避免呢？

问题答案：

这是一个容易解决的问题，其原因是没有阅读有关text在NodeSet和Node（或Element）上使用时的行为的文档。

该节点集文档表示text将：

获取所有包含的Node对象的内部文本

我们看到的是：

doc = Nokogiri::HTML(<<EOT)
<html>
  <body>
    <p>foo</p>
    <p>bar</p>
    <p>baz</p>
  </body>
</html>
EOT

doc.search('p').text # => "foobarbaz"

因为：

doc.search('p').class # => Nokogiri::XML::NodeSet

相反，我们要获取每个Node并提取其文本：

doc.search('p').first.class # => Nokogiri::XML::Element
doc.search('p').first.text # => "foo"

可以使用map：

doc.search('p').map { |node| node.text } # => ["foo", "bar", "baz"]

Ruby允许我们使用以下代码更简洁地编写代码：

doc.search('p').map(&:text) # => ["foo", "bar", "baz"]

无论我们使用的是HTML还是XML，同样的事情也适用，因为HTML是XML的一种更为宽松的版本。

节点具有几种获取其嵌入文本的别名方法。从文档中：

#content ⇒ Object

也称为：text，inner_text

返回此节点的内容。

类似资料：

写入hdfs时如何避免小文件问题

我在我的项目中使用spack-sql-2.3.1v、kafka和java8。与在消费者方面，我尝试使用下面的代码在hdfs me中编写文件当我存储到hdfs文件夹中时，它看起来像下面的东西，即每个文件都在1.5k即几个KB。由于这个小文件，它需要大量的处理时间，而我从hdfs中读取更大的数据集问题： > 如果我想计算给定hdfs文件夹中的记录总数，如何计算？新更改后运行成功结果包括：
如何在JavaFX中获得父节点中的所有节点？

问题内容：在C＃中，我发现了一种非常可爱的方法，该方法使您可以从指定控件中获取所有后代和所有THEIR后代。我正在寻找JavaFX的类似方法。我看到了我要使用的类，因为它是派生所有带有孩子的Node类的类。到目前为止，这是我所拥有的（并且我还没有在Google上通过“ JavaFX从场景中获取所有节点”之类的搜索真正找到任何东西）：那么，如何确定N是否是父母（或从父母继承）呢？我说的对吗
如何避免浮点错误？

问题内容：我试图写一个近似平方根的函数（我知道有数学模块……我想自己做），但我被浮点运算搞砸了。如何避免这种情况？使用它会产生以下结果：我意识到我可以使用，但是我希望能够做到这一点非常准确。我希望能够计算出6或7位数字。如果我四舍五入，那将是不可能的。我想了解如何在Python中正确处理浮点计算。问题答案：这实际上与Python无关- 使用硬件的二进制浮点算法，您会在任何语言中看到相同的
如何避免Python中的循环导入？

问题内容：我知道python中的循环导入问题已经出现过很多次了，我已经阅读了这些讨论。在这些讨论中反复提出的意见是，循环导入表明设计不良，应重新组织代码以避免循环导入。有人可以告诉我在这种情况下如何避免循环导入吗？：我有两个类，并且我希望每个类都有一个构造函数（方法），该构造函数接受另一个类的实例并返回该类的实例。更具体地说，一类是可变的，一类是不变的。哈希，比较等需要不可变的类。可变类也需
如何避免.pyc文件？

问题内容：我可以在不生成编译的.pyc文件的情况下运行python解释器吗？问题答案：来自“ Python 2.6的新增功能- 解释器更改” ：现在，可以通过向Python解释器提供-B开关，或者通过在运行解释器之前设置 PYTHONDONTWRITEBYTECODE环境变量来阻止Python编写.pyc或.pyo文件。此设置可作为Python程序的变量使用，并且Python代码可以更改
如何在Selenium WebElement中获取元素的所有子节点，包括文本节点？

我必须在JavaSelenium应用程序中解析此元素：我想得到一个包含所有5个孩子的列表，包括文本。当我使用WebElement中的任何选择器（xpath、cssSelector）时，它只返回4个非文本元素。有人知道怎么做吗？我是硒的新手，以前从未使用过。谢谢

相关阅读

重点关注时，如何使用Reactjs选择输入中的所有文本？Java Web 如何避免 SQL 注入？避免打印点如何避免NullPointerException？如何避免java.lang.OutOfMemoryError？

相关文章

二分搜索树节点的插入三四十岁的大龄程序员，该如何才能避免失业？XPath节点 XML DOM节点索引节点

相关问答

如何避免Spring Boot加载EmbeddedWebApplicationContext？XSLT-复制所有节点并在复制的节点中添加额外节点避免p：treeTable的节点在更新后折叠如何避免Selenium中的StaleElementReessceException-Python 避免kubernetes调度器在kubernetes集群的单个节点上运行所有吊舱

相关工具

刮刮奖 ios所支持的所有字体加拿大点击获取网页的所有图片 Android 繁体中文输入法

相关文档

TypeScript 中文入门教程 Vue GuideBook 中文入门书 QueryList 入门文档 Nerv 入门文档变现猫接入文档 v1.4