当前位置: 首页 > 知识库问答 >
问题:

从跨距中删除标记中的文本,同时刮除文本的其余部分

鲁博瀚
2023-03-14

我正在尝试用漂亮的汤刮文本,我需要从一个特定类的跨度内获取文本,但在一个不同的类中丢弃同一跨度内的上标数字。我可以很容易地使用gettext从跨度中提取数字和内容,但最后我也得到了上标数字。解决方案需要能够丢弃sup标记的每个实例及其文本内容。

HTML示例:

<span class="woj">
 <sup class="versenum">
  16
 </sup>
  The text I want
</span>

我现在得到的是:16我想要的文本

我想要的:我想要的文本

共有1个答案

梁建德
2023-03-14

可以使用.sup.extract()提取所有sup标记

html = '<span class="woj"><sup class="versenum">16</sup>The text I want</span>'

parsed_element = bs.BeautifulSoup(html, 'html.parser')
[s.extract() for s in parsed_element('sup')]
text = parsed_element.text
 类似资料:
  • 问题内容: 我有一个像这样的textfile.txt: 如何删除最舒适的前三行和最后一行? 问题答案:

  • 问题内容: 有没有一种简单的方法可以在JavaScript中获取html字符串并去除html? 问题答案: 如果您在浏览器中运行,那么最简单的方法就是让浏览器为您完成… 注意:正如人们在评论中所指出的那样,如果您不控制HTML的源代码(例如,请勿在可能来自用户输入的任何内容上运行此代码),则最好避免这种情况。对于这些情况,您仍然可以让浏览器为您完成工作-

  • 问题内容: 有没有一种简单的方法可以在JavaScript中获取html字符串并去除html? 问题答案: 如果您在浏览器中运行,那么最简单的方法就是让浏览器为您完成… 注意:正如人们在评论中所指出的那样,如果您不控制HTML的源代码(例如,请勿在可能来自用户输入的任何内容上运行此代码),则最好避免这种情况。对于这些情况,您仍然可以让浏览器为您完成工作。

  • 我有一个包含一些文件路径的长文本。 我想做的是从其中删除路径。文件路径都类似于: 我知道使用“^/all”将选择以/all开头的句子,并选择以.js$结尾的句子。但我无法将这些合并在一起以选择整个文件路径。 毕竟,正则表达式应该放在下面的代码上以删除路径。 我能为它写正则表达式吗?有什么工具吗?

  • $format = new \Vtiful\Kernel\Format($fileHandle); $style = $format->strikeout()->toResource();

  • 问题内容: 在我的测试中,我有一个带有预先存在的文本的文本字段。我想删除内容并输入新字符串。 用硬件键盘删除字符串时,录音对我来说什么都没有产生。用软件键盘做完同样的事情后,我得到了: 要么 我担心自己的测试取决于语言,因此我为受支持的语言创建了以下内容: 在代码中看起来更好: 但是非常脆弱。从模拟器退出后,被重置,并且我的测试失败。我的解决方案不适用于CI测试。如何解决这个问题才更普遍? 问题答