问题：

AWS文本摘要-不支持文档例外-PDF

习旻

2023-03-14

我使用boto3（aws sdk for python）来分析文档（pdf）以获得表单键：值对。

import boto3

def process_text_analysis(bucket, document):
    # Get the document from S3
    s3_connection = boto3.resource('s3')
    s3_object = s3_connection.Object(bucket, document)
    s3_response = s3_object.get()
    # Analyze the document
    client = boto3.client('textract')
    response = client.analyze_document(Document={'S3Object': {'Bucket': bucket, 'Name': document}},
                                       FeatureTypes=["FORMS"])


process_text_analysis('francismorgan-01', '709 Privado M SURESTE.pdf')

我使用Analyze Document遵循了AWS的文档，当我运行我的函数时，我得到了错误。

botocore.errorfactory.UnsupportedDocumentException: An error occurred (UnsupportedDocumentException) when calling the AnalyzeDocument operation: Request has unsupported document format

我错过什么了吗？

共有2个答案

齐元章

2023-03-14

正如医生所说

StartDocumentAnalysis可以分析JPEG、PNG、TIFF和PDF格式文档中的文本。这些文档存储在Amazon S3存储桶中。使用DocumentLocation指定文档的bucket名称和文件名。

import boto3

client = boto3.client('textract')

response = client.start_document_analysis(
    DocumentLocation={
        'S3Object': {
            'Bucket': 'YOUR_BUCKET_NAME',
            'Name': 'YOUR_FILE_KEY_NAME'
        }
    },
    FeatureTypes=["FORMS"]
)

# Get results from asynchronous operation
result = client.get_document_analysis(JobId=response['JobId'])

此外，AWS docs还提供了一个类TextractWrapper，其中包含方法start_analysis_job和get_analysis_job，与前面的示例相同。

颜河

2023-03-14

Analyze文档是一个同步API，仅支持PNG或JPG图像。

因为你想处理PDF文件，所以你需要使用Amazon Textract异步API，例如StartDocumentAnalysis，StartDocumentTextDetection

类似资料：

AWS文本-不支持文档异常

在使用boto3 for python实现aws textract时。代码：下面是aws的凭证和配置文件我得到了一个例外：我对AWS textract有点陌生，任何帮助都将不胜感激。
文档生成 - 支持proto3

安装 protoc-gen-doc 简单遵循安装要求即可： https://github.com/estan/protoc-gen-doc 安装完成之后的protoc是2.5.0版本，无法处理proto3的文件。因此我们需要升级替换protoc为v3.0.0版本。升级protoc 使用预编译版本下载请先在 protobuf 的发布页面中找到对应版本的 download ，然后下载对应版本
java.lang.IllegalArgumentException：不支持的类文件主要版本57

当我构建我的应用程序时，我得到了以下错误。任何帮助都将不胜感激。根：生成。格拉德尔 settings.gradle 应用程序：生成。格拉德尔失败：生成失败，出现异常*其中：设置文件“/Users/Documents/android/MyApplication5/Settings。gradle“*出了什么问题：无法编译设置文件”//Users/anand/Documents/android/My
InnoDB 文档支持事务、行级锁定和外键

我正在尝试在phpmmyadmin中创建下表，但我得到上面的错误以上所有内容都运行完美，但是当我尝试创建下一个表时，我得到了上面的错误任何帮助都将不胜感激，瑞秋
AWS Textract是否支持png文件中的印地语文本？

我需要对包含印地语、马拉地语、马拉雅拉姆语等语言文本的图像进行光学字符识别。我在python脚本中使用AWS文本API，但扫描印地语文本文档上的OCR给出了不正确的英语单词的响应。 AWS Textract支持印地语吗？请指导我。提前谢谢你。
文档混乱：Selenium支持哪个版本的Firefox？

问题内容：在Selenium支持的平台上，支持的最高selenium版本是v10。我认为这与当前扩展支持版本10一致，v17是下一个ESF，将于2012年11月20日发布。 Firefox扩展支持 Firefox发布日历但是，查看Selenium客户端驱动程序2.25 的发行说明（2012年7月18日）时，它会显示“将Firefox的支持版本更新为17”。我们应该阅读哪一页？Seleniu

AWS文本摘要-不支持文档例外-PDF

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档