当前位置: 首页 > 知识库问答 >
问题:

AWS文本摘要-不支持文档例外-PDF

习旻
2023-03-14

我使用boto3(aws sdk for python)来分析文档(pdf)以获得表单键:值对。

import boto3

def process_text_analysis(bucket, document):
    # Get the document from S3
    s3_connection = boto3.resource('s3')
    s3_object = s3_connection.Object(bucket, document)
    s3_response = s3_object.get()
    # Analyze the document
    client = boto3.client('textract')
    response = client.analyze_document(Document={'S3Object': {'Bucket': bucket, 'Name': document}},
                                       FeatureTypes=["FORMS"])


process_text_analysis('francismorgan-01', '709 Privado M SURESTE.pdf')

我使用Analyze Document遵循了AWS的文档,当我运行我的函数时,我得到了错误。

botocore.errorfactory.UnsupportedDocumentException: An error occurred (UnsupportedDocumentException) when calling the AnalyzeDocument operation: Request has unsupported document format

我错过什么了吗?

共有2个答案

齐元章
2023-03-14

正如医生所说

StartDocumentAnalysis可以分析JPEG、PNG、TIFF和PDF格式文档中的文本。这些文档存储在Amazon S3存储桶中。使用DocumentLocation指定文档的bucket名称和文件名。

import boto3

client = boto3.client('textract')

response = client.start_document_analysis(
    DocumentLocation={
        'S3Object': {
            'Bucket': 'YOUR_BUCKET_NAME',
            'Name': 'YOUR_FILE_KEY_NAME'
        }
    },
    FeatureTypes=["FORMS"]
)

# Get results from asynchronous operation
result = client.get_document_analysis(JobId=response['JobId'])

此外,AWS docs还提供了一个类TextractWrapper,其中包含方法start_analysis_jobget_analysis_job,与前面的示例相同。

颜河
2023-03-14

Analyze文档是一个同步API,仅支持PNG或JPG图像。

因为你想处理PDF文件,所以你需要使用Amazon Textract异步API,例如StartDocumentAnalysis,StartDocumentTextDetection

 类似资料:
  • 在使用boto3 for python实现aws textract时。 代码: 下面是aws的凭证和配置文件 我得到了一个例外: 我对AWS textract有点陌生,任何帮助都将不胜感激。

  • 安装 protoc-gen-doc 简单遵循安装要求即可: https://github.com/estan/protoc-gen-doc 安装完成之后的protoc是2.5.0版本,无法处理proto3的文件。因此我们需要升级替换protoc为v3.0.0版本。 升级protoc 使用预编译版本 下载 请先在 protobuf 的 发布页面 中找到对应版本的 download ,然后下载对应版本

  • 当我构建我的应用程序时,我得到了以下错误。任何帮助都将不胜感激。 根:生成。格拉德尔 settings.gradle 应用程序:生成。格拉德尔 失败:生成失败,出现异常*其中:设置文件“/Users/Documents/android/MyApplication5/Settings。gradle“*出了什么问题:无法编译设置文件”//Users/anand/Documents/android/My

  • 我正在尝试在phpmmyadmin中创建下表,但我得到上面的错误 以上所有内容都运行完美,但是当我尝试创建下一个表时,我得到了上面的错误 任何帮助都将不胜感激,瑞秋

  • 我需要对包含印地语、马拉地语、马拉雅拉姆语等语言文本的图像进行光学字符识别。我在python脚本中使用AWS文本API,但扫描印地语文本文档上的OCR给出了不正确的英语单词的响应。 AWS Textract支持印地语吗? 请指导我。 提前谢谢你。

  • 问题内容: 在Selenium支持的平台上,支持的最高selenium版本是v10。我认为这与当前扩展支持版本10一致,v17是下一个ESF,将于2012年11月20日发布。 Firefox扩展支持 Firefox发布日历 但是, 查看Selenium客户端驱动程序2.25 的发行说明(2012年7月18日)时,它会显示“将Firefox的支持版本更新为17”。 我们应该阅读哪一页?Seleniu