当前位置: 首页 > 知识库问答 >
问题:

尝试使用Apache Tika和XPath获取属性值

富凯风
2023-03-14
XPathParser  xhtmlParser = new XPathParser ("xhtml", XHTMLContentHandler.XHTML);
Matcher anchorLinkContentMatcher = xhtmlParser.parse("//xhtml:a/@xhtml:href/text()");
ContentHandler handler = new MatchingContentHandler(
    new ToHTMLContentHandler(), anchorLinkContentMatcher);
HtmlParser parser = new HtmlParser();
ParseContext pcontext = new ParseContext();
    
try {
    parser.parse(urlContentStream, handler, new Metadata(),pcontext);
    System.out.println(handler);
}
catch (Exception e)
{....}

我尝试了以下不同的XPath:

//xhtml:a/@xhtml:href
//xhtml:a/href/text()
//xhtml:a/href
//@xhtml:href/text()

共有1个答案

花飞尘
2023-03-14
//xhtml:a/@href
 类似资料:
  • 检索给定节点resp的所有属性名(而不是属性值!)的Xpath表达式看起来如何。xml标签? 假设以下XML文档: Xpath//title/@*会选择“eng,fr,easyreading”,但哪个Xpath会选择“lang,lang,type”?

  • 在响应中,我们接收一个xml文件,然后转换为SimpleXMLElement,然后根据需要访问元素和属性。然而,当直接从字符串响应加载xml而不是从保存的响应加载xml时,我们得到了“尝试获取非对象的属性”。 当使用simplexml\u load\u字符串而不是simplexml\u load\u文件时,什么会导致xml失败? 以下是xml文件的一个片段:

  • 我是Selenium的新手,需要能够使用属性和文本对以下元素进行xpath。 我正在使用 但我还需要它带有属性,以便将其缩小到单个元素。

  • 问题内容: 我有以下HTML代码: 我想获取href中包含的内容,即,我正在寻找一个命令,该命令将为href提供“ / search /?p = 2&q = move&mt = 1”值。 有人可以通过selenium中的相应命令和CSS定位器为我提供上述查询的帮助吗? 如果我有类似的东西: 如果要获取href的属性值,那么这两个属性中的文本将内容标记为“ 2”,那么我的CSS定位器synatx会是

  • 可以使用什么Xpath来获取ID在(selenium webdriver)中提到的DIV标记的background-image CSS属性? 例如:(div id=“abc”,style=“width:538px!重要;height:242px!重要;background-image:url(http://test.com/images/abc.png);position:relative;bac