当前位置: 首页 > 面试题库 >

如何在BeautifulSoup中删除空格

蒋哲
2023-03-14
问题内容

我有一堆正在用BeautifulSoup解析的HTML,除了一个小小的障碍外,一切进展顺利。我想将输出保存到单行字符串中,并将以下内容作为当前输出:

    <li><span class="plaincharacterwrap break">
                    Zazzafooky but one two three!
                </span></li>
<li><span class="plaincharacterwrap break">
                    Zazzafooky2
                </span></li>
<li><span class="plaincharacterwrap break">
                    Zazzafooky3
                </span></li>

理想情况下,我想要

<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li>

我想摆脱很多多余的空格,但是不一定要使用来strip()删除它,也不能因为需要保留文本而公然删除所有空格。我该怎么做?看起来正则表达式过于矫over似乎是一个足够普遍的问题,但这是唯一的方法吗?

我没有任何<pre>标签,因此可以在其中变得更有力。

再次感谢!


问题答案:

这是不使用正则表达式的方法

>>> html = """    <li><span class="plaincharacterwrap break">
...                     Zazzafooky but one two three!
...                 </span></li>
... <li><span class="plaincharacterwrap break">
...                     Zazzafooky2
...                 </span></li>
... <li><span class="plaincharacterwrap break">
...                     Zazzafooky3
...                 </span></li>
... """
>>> html = "".join(line.strip() for line in html.split("\n"))
>>> html
'<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li><li><span class="plaincharacterwrap break">Zazzafooky3</span></li>'


 类似资料:
  • 问题内容: 我有一个以许多空格开头的文本字符串,介于2和4之间。 删除前导空格的最简单方法是什么?(即删除某个字符之前的所有内容?) 问题答案: 该方法将删除以字符串开头的前导空格,换行符和制表符: 编辑 正如balpha在注释中指出的那样,为了 仅从 字符串开头删除空格,应使用:

  • 我使用XMLOutputter类将文档对象的内容写入xml文件。 但我面临以下问题:当我删除任何子节点时,它会在文档对象中创建空行,并且在将其内容保存到xml文件时,它也会在xml文件中显示空行。 所以这意味着如果我执行10次删除操作并保存其内容,那么xml文件中将有10行空行。 我浏览了以下链接。这些链接建议使用以下api: http://www.jdom.org/pipermail/jdom-

  • 我有一些代码可以接受3个不同的PDF字节数组并将它们合并。这段代码非常有效。(一些人)面临的问题是,每个PDF都被视为一个完整的页面(如果打印出来的话),即使上面只有4英寸的内容,也会在垂直方向上留下7英寸的空白。然后,中间的文档被放入其中,它的末尾可能有也可能没有垂直的空格。然后,页脚也会放在自己的页面上。 代码如下: 当我合并每个页面时,有没有办法剪辑/删除/擦除每个pdf末尾的垂直空白,使其

  • 与eclipse的问题类似, 如何从正在编辑的整个文件中自动删除尾随空格? 如何仅从更改的行中自动删除尾随空格?

  • 问题内容: 我确实有一个包含超过100000个数据元素的表,但是其中几乎有350个空白行。如何使用phpmyadmin删除此空白行?手动删除是一项繁琐的任务。 问题答案: 普遍的答案是: 或者 参见:http : //dev.mysql.com/doc/refman/5.0/en/delete.html 发布表格时的更多信息!〜 另外,请务必执行以下操作: 删除之前,这样就可以看到要删除的行!我认

  • 问题内容: 尝试删除不为空的文件夹时,出现“访问被拒绝”错误。我尝试使用以下命令:。 删除/删除不为空的文件夹/目录的最有效方法是什么? 问题答案: 标准库参考:shutil.rmtree。 根据设计,在包含只读文件的文件夹树上失败。如果要删除该文件夹而不管它是否包含只读文件,请使用