当前位置: 首页 > 知识库问答 >
问题:

SOLR7解析word文档时出错

陈朗
2023-03-14

我使用SOLR7完全解压缩windows文档文件。我有这个错误:

但是使用Solr5.5我没有错误,知道吗?

共有1个答案

刘元青
2023-03-14

当文档中有图片时,问题就来了。图片的标头已被检索,而POI正在期待其他内容....但是文档的头是可以的。

read 0x0A1A0A0D474E5089, expected 0xE11AB1A1E011CFD0

预期的是来自文档字的头,另一个是来自图片的头,例如。解析器总是等待相同的头,即使在文档中,如果有其他元素。更改解析器就会有诀窍。

 类似资料:
  • 本文向大家介绍python解析html提取数据,并生成word文档实例解析,包括了python解析html提取数据,并生成word文档实例解析的使用技巧和注意事项,需要的朋友参考一下 简介 今天试着用ptyhon做了一个抓取网页内容,并生成word文档的功能,功能很简单,做一下记录以备以后用到。 生成word用到了第三方组件python-docx,所以先进行第三方组件的安装。由于windows下安

  • 我想编写一个通用方法,通过循环段落和形状来提取从word文档到文本文件的所有内容。 我能够使用下面的代码解析90%的文档。但是,此代码不会读取少数表中的内容。 我无法从MS word文档中提取表格中的少量文本。这个问题只涉及一些文本和表格,我可以用我的代码阅读文档中的大部分内容。 Word文档位于以下链接中- https://drive.google.com/file/d/0B1C7jj9dLG2

  • 如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 SoupStrainer 对象并作为 parse_only 参数给 BeautifulSoup 的构造方法即

  • 如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 SoupStrainer 对象并作为 parse_only 参数给 BeautifulSoup 的构造方法即

  • 主要内容:Java DOM4J解析器 解析XML文档的步骤,Java DOM4J解析器 解析XML文档的示例Java DOM4J解析器 解析XML文档的步骤 以下是使用 DOM4J Parser 解析文档时使用的步骤。 导入与 XML 相关的包。 创建一个 SAXReader。 从文件或流创建文档。 通过调用 document.selectNodes() 使用 XPath 表达式获取所需的节点 提取根元素。 迭代节点列表。 检查属性。 检查子元素。 导入 XML 相关的包 创建一个文档生成器 从

  • 主要内容:Java XPath解析器 解析XML文档的步骤,Java XPath解析器 解析XML文档的示例Java XPath解析器 解析XML文档的步骤 以下是使用 XPath Parser 解析文档时使用的步骤。 导入与 XML 相关的包。 创建一个文档生成器。 从文件或流创建文档。 创建一个 Xpath 对象和一个 XPath 路径表达式。 使用XPath.compile()编译 XPath 表达式,并通过XPath.evaluate()评估编译的表达式来获取节点列表。 迭代节点列表。