当前位置: 首页 > 知识库问答 >
问题:

节点。js如何使用url作为pdf路径来处理pdf2json

章昱
2023-03-14

我正在使用node。js和pdf2json解析器来解析pdf文件。目前,它正在处理本地pdf文件。但我正试图通过node的URL/HTTP模块获取pdf文件。js和我想打开这个文件来解析它。

是否有可能解析/使用在线pdf?

let query   = url.parse(req.url, true).query;
let pdfLink = query.pdf;
...
pdfParser.loadPDF(pdfLink + "");

因此,url应通过如下url给出:https://localhost:8080/?pdf=http://whale-cms。de/pdf。pdf格式

有没有办法在在线pdf/链接中解析它?

提前谢谢。

共有1个答案

锺离正祥
2023-03-14

我只是遇到了同样的问题,并找到了解决方案:

        var request = require('request');
        var PDFParser = require("pdf2json");
        var pdfUrl = "http://localhost:3000/cdn/storage/PDFFiles/sk87bAfiXxPre428b/original/sk87bAfiXxPre428b"
        var pdfParser = new PDFParser();

        var pdfPipe = request({url: pdfUrl, encoding:null}).pipe(pdfParser);

        pdfPipe.on("pdfParser_dataError", err => console.error(err) );
        pdfPipe.on("pdfParser_dataReady", pdf => {
          let usedFieldsInTheDocument = pdfParser.getAllFieldsTypes();
            console.log(usedFieldsInTheDocument)
        });

来源:https://github.com/modesty/pdf2json/issues/65
干杯

 类似资料:
  • 我面临的挑战是: > 文本节点可以包括具有和定义的TSPAN。创建的路径必须与每个childNode字母(tspans)完美地对齐。 检索文本节点的实际位置数据,以及每个tspan。这就是我遇到麻烦的地方,希望有更多经验的人能帮助我。由于笔画宽度和其他属性会影响定位/bbox值,所以我不确定为文本获取正确定位数据的最有效方法是什么。 textToPaths函数是一个paper函数,它应该循环遍历p

  • 在收到客户端请求时,web 容器确定转发到哪一个 Web 应用。选择的 Web 应用必须具有最长的上下文路径匹配请求 URL 的开始。当映射到Servlet 时,URL 匹配的一部分是上下文。 Web 容器接下来必须用下面描述的路径匹配步骤找出 servlet 来处理请求。 用于映射到 Servlet 的路径是请求对象的请求 URL 减去上下文和路径参数部分。下面的 URL 路径映射规则按顺序使用

  • 问题内容: 我正在尝试创建完整路径(如果不存在)。 代码如下: 只要只有一个子目录(例如“ dir1”之类的newDest),此代码就可以很好地工作,但是当存在一个目录路径(“ dir1 / dir2”)时,它将失败并显示 错误:ENOENT,没有这样的文件或目录 我希望能够用最少的代码行来创建完整路径。 我读到fs上有一个递归选项,并像这样尝试过 我觉得递归地创建一个不存在的目录应该很简单。我是

  • 我需要访问十万个或更多的url,并检查它们是否重定向到不同的最终url。 我正在使用https://www.scrapeulous.com这样做。但我需要编写一个简单的自定义函数来实现它。他使用了got图书馆。其中的文档在以下重定向选项中指出: 跟随重定向 类型:布尔值默认值:true 定义重定向响应是否应自动执行。 注意,如果服务器响应任何请求类型(POST、DELETE等)发送303,则Got

  • 问题内容: 我有一个网址: 和相对路径: 我想使用变量和 怎么做? 问题答案:

  • 我已经使用FastAPI创建了一个简单的API,我正在尝试将URL作为任意的<code>路径</code>参数传递给FastAPI路由。 当我测试它时,它不起作用并抛出错误。我以这种方式测试它: