当前位置: 首页 > 面试题库 >

解析Java中的元标记

许黎明
2023-03-14
问题内容

我有一个HTML文档集合,我需要为其解析部分中 标记的内容。这些是我感兴趣的唯一HTML标记,即不需要在部分中解析任何内容。

我试图使用JDom提供的XPath支持来解析这些值。但是,这不能很好地解决,因为部分中的许多HTML都是无效的XML。

有人对我可能如何处理格式错误的HTML解析这些标记值有任何建议吗?

干杯,唐


问题答案:

您可能会使用Jericho HTML
Parser
。特别是,请查看此内容以了解如何查找特定标签。



 类似资料:
  • 问题内容: 请求中的accept-language标头通常是一个很长的复杂字符串- 例如。 有没有一种简单的方法可以在Java中解析它?还是可以帮助我做到这一点的API? 问题答案: 我建议使用让容器解析“接受语言”,而不是尝试自己管理复杂性。

  • 我对Java的html解析非常陌生,我以前使用JSoup来解析简单的html,而不需要动态改变它,但是现在我需要解析一个包含动态元素的网页。这是我之前试图解析网页的代码,但无法找到元素,因为它们是在页面加载后添加的。问题是,如果一个页面使用了带有标记的谷歌地图,我会尝试刮去这些标记的图像。

  • 有关于OpenNLP中解析器标记含义的文档吗?我知道POS标记类型遵循树库约定,但不幸的是,我没有找到任何关于解析器标记的信息,例如“SBAR”等。 这个留档是存在于某个地方还是我必须自己弄清楚?

  • 本文向大家介绍Java annotation元注解原理实例解析,包括了Java annotation元注解原理实例解析的使用技巧和注意事项,需要的朋友参考一下 元注解是指注解的注解。包括 @Retention @Target @Document @Inherited四种。 1. Annotation型定义为@interface, 所有的Annotation会自动继承java.lang.Annota

  • 如何从下面的html中解析出46389333? 我使用的是JSoup,显然我可以解析文本、标签和其他值。但是我不知道如何解析这个值。即使我只能解析出/exampleTweet/status/46389333,至少我可以解析这个字符串,这要容易得多。问题是,数字变了,显然例子也变了。不过,地位还是存在的,所以也许我可以利用这一点?任何帮助都是巨大的。

  • 本文向大家介绍Java中Json解析的方法分析,包括了Java中Json解析的方法分析的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Java中Json解析的方法。分享给大家供大家参考,具体如下: 首先准备一个JSON格式的字符串 下面是一个Json解析的程序代码 PS:关于json操作,这里再为大家推荐几款比较实用的json在线工具供大家参考使用: 在线JSON代码检验、检验、美化、格式