当前位置: 首页 > 知识库问答 >
问题:

javascript - 使用pdf.js预览pdf文件不能搜索文字?

吴均
2023-10-08

在项目中的static里放了pdf.js,预览后台把DOC、DOCX转为PDF格式的文档可以搜索文字,但是直接预览PDF格式的文档就不能使用搜索了,是什么原因呢?1696759455459.png

共有2个答案

松铭
2023-10-08

恐怕是 PDF 里本身就没有文字(或者没有你想搜索的文字),用别的 PDF 阅读器(比如 WPS)打开 PDF 看看,如果多个 PDF 阅读器都不能搜索,那就是 PDF 本身的问题。
有些 PDF 阅读器可能自带了 OCR ,只要能看到的文字都能搜到,所以要多尝试几个软件,才好下定论。
实测官方 Demo 打开的 PDF 是可以搜索文字的:
图片.png

昝成弘
2023-10-08

如果使用pdf.js预览PDF文件时无法搜索文字,可能是以下原因之一:

  1. PDF文件损坏或加密:如果PDF文件损坏或加密,则可能无法搜索到文字。尝试使用其他PDF阅读器或解密工具来打开文件,并确保文件没有损坏。
  2. 不支持的PDF特性:pdf.js是一个基于JavaScript的PDF渲染库,它可能不支持某些PDF特性,例如某些加密算法或特殊字体。检查PDF文件中是否使用了这些特性,并尝试将文件转换为支持的格式(例如未加密的PDF或图像格式)。
  3. JavaScript渲染问题:pdf.js使用JavaScript在浏览器中渲染PDF文件。如果JavaScript执行不完全或出现错误,则搜索可能无法正常工作。确保pdf.js版本与您的浏览器兼容,并检查浏览器的JavaScript设置和日志以查看是否有错误。
  4. 字体嵌入问题:如果PDF文件中使用了特定字体,并且该字体未在pdf.js中正确嵌入,则搜索可能无法找到文字。尝试将PDF文件转换为使用系统默认字体的格式,并检查是否可以搜索到文字。

如果您尝试了以上方法仍然无法解决问题,请提供更多关于您的项目设置和代码的详细信息,以便更好地帮助您。

 类似资料:
  • 本文向大家介绍vue实现在线预览pdf文件和下载(pdf.js),包括了vue实现在线预览pdf文件和下载(pdf.js)的使用技巧和注意事项,需要的朋友参考一下 最近做项目遇到在线预览和下载pdf文件,试了多种pdf插件,例如jquery.media.js(ie无法直接浏览) 最后选择了pdf.js插件(兼容ie10及以上、谷歌、安卓,苹果) 强烈推荐改插件,以下介绍用法 (1)下载插件 下载路

  • 问题内容: 我正在尝试使用pdf.js从pdf渲染页面 通常,使用网址,我可以这样做: 但是在这种情况下,我将文件放在base64中而不是url中: 如何做到这一点? 问题答案: 从http://mozilla.github.com/pdf.js/build/pdf.js的源代码中 因此,使用标准XMLHttpRequest(XHR)来检索文档。问题在于XMLHttpRequests不支持数据:u

  • 问题内容: 我在Ionic App中显示了带有pdf.js的pdf文件。我不使用viewer.js和viewer.html,因为我需要完全不同的布局。现在,我有一个自定义搜索栏,我想突出显示pdf文件中的术语。我可以调用一个函数来执行此操作吗? 我正在像这样渲染文件: HTML: 问题答案: 现在我找到了解决方案! 搜索字词: 而且我必须导入viewer.js。 我在问题中发布的代码不再需要。PD

  • Seafile 专业版服务器支持在线预览 office 文件,配置方法如下。 安装 Libreoffice/UNO Office 预览依赖于 Libreoffice 4.1+ 和 Python-uno 库。 Ubuntu/Debian: sudo apt-get install libreoffice libreoffice-script-provider-python poppler-utils

  • 我们有一个客户正在使用谷歌搜索设备(GSA)搜索数千个PDF文件。PDF文件位于子文件夹中组织的文件共享上。它定期发现新文件并将其添加到数据库中。 GSA还不够好,所以现在他们需要替代品。例如,他们的GSA无法在PDF中正确搜索垂直文本。我们已经研究了Apache Lucene和Solr以及Tika和ExtractingRequestHandler。 我已经启动并运行了Solr示例,并添加了一个使

  • 问题 我试图通过搜索文本来确定文档是什么类型(例如恳求、通信、传票等),最好使用python。所有的PDF都是可搜索的,但是我还没有找到用python解析它并应用脚本搜索它的解决方案(除了先将它转换为文本文件,但是对于n个文档来说,这可能是资源密集型的)。 到目前为止,我所做的 我已经研究了pypdf、pdfminer、adobe pdf文档,以及我能在这里找到的任何问题(尽管似乎没有一个能直接解