当前位置: 首页 > 面试题库 >

如何使用Python XML findall查找“'

严兴旺
2023-03-14
问题内容

我正在尝试从<v:imagedata r:id="rId7" o:title="1-REN"/>具有命名空间的Word文档中查找所有内容xmlns:v="urn:schemas-microsoft- com:vml",但我不知道语法到底是什么。

这些文档仅涵盖了非常简单的情况,并加入了URN和VML组合,我似乎无法从网上看到我能看到的任何示例。有人碰巧知道这是什么吗?

我正在尝试做这样的事情:

namespace = {'v': "urn:schemas-microsoft-com:vml"}

results = ET.fromstring(xml).findall("imagedata", namespace)
for image_id in results:
    print(image_id)

编辑:@aneroid写的是1000%正确的答案,超级有帮助。您应该对此投票。就是说,在理解了所有内容之后-
我接受了BS4的答案,因为它完全按照我的要求在两行中完成了全部工作。如果您实际上并不关心名称空间,那似乎会更容易。


问题答案:

ET.findall()vs BS4.find_all()

  • findall() 默认情况下, ElementTree并非递归 __ 。它只会 找到 所提供节点的 直接子代* 。因此,在您的情况下,它仅在根元素正下方搜索图像节点。
    • 按照下面的mzjn的注释,在match参数(标记或路径)之前加上前缀".//"在树中的任何位置* 搜索该节点,因为它支持XPath。
  • BeautifulSoup的find_all() 搜索所有后代 。因此,它会在树中的任何地方寻找“ imagedata”节点。
  • 但是,ElementTree.iter()搜索所有后代 。使用docs中的“使用命名空间”示例:

    >>> for char in root.iter('{http://characters.example.com}character'):
    

    … print(‘ |–>’, char.text)

    |–> Lancelot
    |–> Archie Leach
    |–> Sir Robin
    |–> Gunther
    |–> Commander Clement

  • 可悲的是,ET.iterfind()它使用命名空间作为dict(例如ET.findall),也 不会搜索后代而是 默认情况下 仅引导子对象 * 。就像ET.findall。除了如何''使用名称空间处理标记中的空字符串,一个返回列表,另一个返回迭代器,我不能说ET.findalland之间存在有意义的区别ET.iterfind

    • *如前所述ET.findall(),前缀".//"使它搜索整个树( 与任何节点匹配 )。

当将名称空间与ET一起使用时,仍然需要带有标签的 名称空间名称 。结果行应为:

namespace = {'v': "urn:schemas-microsoft-com:vml"}
results = ET.fromstring(xml).findall("v:imagedata", namespace)  # note the 'v:'

另外,'v'不必是'v',您可以根据需要将其更改为更有意义的名称:

namespace = {'image': "urn:schemas-microsoft-com:vml"}
results = ET.fromstring(xml).findall("image:imagedata", namespace)

当然,如果它们不是根的直接子代,那么仍然不一定能为您提供所有imagedata元素。
为此,您需要创建一个递归函数来为您执行此操作。请注意,而答案不递归搜索,你很可能会击中Python的递归限制,如果后代深度过......

要获取树中任何位置的所有imagedata元素,请使用".//"前缀:

results = ET.fromstring(xml).findall(".//v:imagedata", namespace)


 类似资料:
  • 问题内容: 我有以下代码: 在同一工作区,我有以下课程 如果我单击鼠标右键(首先提到)并选择“打开呼叫层次结构”,那么我什么也看不到。 如何在Eclipse中找到这种用法? 问题答案: 右键单击Myclass,在project | workspace中找到引用。 打开调用层次结构,打开继承层次结构。

  • 以下数据存储在我的收藏中 我为find和这是我从req获得的数据。我在这里提到的身体是一个疑问 我希望这个res.json应该只返回这两个文档 在mongoDB我们可以这样写 我想要nodejs中的解决方案,因为根据请求我们需要找到帮助我

  • 本文向大家介绍如何使用LIMIT查询MongoDB?,包括了如何使用LIMIT查询MongoDB?的使用技巧和注意事项,需要的朋友参考一下 使用limit()方法查询MongoDB。让我们创建一个包含文档的集合 在find方法的帮助下显示集合中的所有文档- 这将产生以下输出- 以下是在MongoDB中使用LIMIT的查询- 这将产生以下输出-

  • 对于这样一个简单的问题,我感到很抱歉,但我发现很难相信在使用JavaFX SceneBuilder开发用户界面的同时,我实际上无法查看fxml。 null 即http://www.webhostingplanguide.com/wp-content/uploads/2013/12/coffeecup-html-editor.jpg 如上所述,我希望能够在FXML或所见即所得的前端工作。

  • 问题内容: 我有两个表: 这是我的查询: 并为此: 它在第一个表上使用的全索引扫描进行排序,但不使用y索引进行连接(在解释中)。这对性能非常不利,并且会杀死整个数据库服务器,因为这是一个非常频繁的查询。 我尝试使用反转表顺序,但这给了,甚至更糟。 有什么办法可以使mysql同时使用索引进行连接和排序? ===更新=== 我真的很绝望。也许某种形式的非规范化可以在这里有所帮助? 问题答案: 如果您有

  • 问题内容: 当我尝试使用此查询时,我收到一条错误消息,指出Perameter电子邮件不存在,我确定变量:email,login_pass,payment_method,operateur是有效的并且存在。 我尝试删除引号,但我得到了 您的Sql语法有错误,请在第1行的’:email,:login_pass,:payment_method,:avecpuce)’附近查看与您的SQL Server对应