我使用boto3(aws sdk for python)来分析文档(pdf)以获得表单键:值对。
import boto3
def process_text_analysis(bucket, document):
# Get the document from S3
s3_connection = boto3.resource('s3')
s3_object = s3_connection.Object(bucket, document)
s3_response = s3_object.get()
# Analyze the document
client = boto3.client('textract')
response = client.analyze_document(Document={'S3Object': {'Bucket': bucket, 'Name': document}},
FeatureTypes=["FORMS"])
process_text_analysis('francismorgan-01', '709 Privado M SURESTE.pdf')
我使用Analyze Document遵循了AWS的文档,当我运行我的函数时,我得到了错误。
botocore.errorfactory.UnsupportedDocumentException: An error occurred (UnsupportedDocumentException) when calling the AnalyzeDocument operation: Request has unsupported document format
我错过什么了吗?
正如医生所说
StartDocumentAnalysis可以分析JPEG、PNG、TIFF和PDF格式文档中的文本。这些文档存储在Amazon S3存储桶中。使用DocumentLocation指定文档的bucket名称和文件名。
import boto3
client = boto3.client('textract')
response = client.start_document_analysis(
DocumentLocation={
'S3Object': {
'Bucket': 'YOUR_BUCKET_NAME',
'Name': 'YOUR_FILE_KEY_NAME'
}
},
FeatureTypes=["FORMS"]
)
# Get results from asynchronous operation
result = client.get_document_analysis(JobId=response['JobId'])
此外,AWS docs还提供了一个类TextractWrapper,其中包含方法start_analysis_job
和get_analysis_job
,与前面的示例相同。
Analyze文档是一个同步API,仅支持PNG或JPG图像。
因为你想处理PDF文件,所以你需要使用Amazon Textract异步API,例如StartDocumentAnalysis,StartDocumentTextDetection
在使用boto3 for python实现aws textract时。 代码: 下面是aws的凭证和配置文件 我得到了一个例外: 我对AWS textract有点陌生,任何帮助都将不胜感激。
安装 protoc-gen-doc 简单遵循安装要求即可: https://github.com/estan/protoc-gen-doc 安装完成之后的protoc是2.5.0版本,无法处理proto3的文件。因此我们需要升级替换protoc为v3.0.0版本。 升级protoc 使用预编译版本 下载 请先在 protobuf 的 发布页面 中找到对应版本的 download ,然后下载对应版本
当我构建我的应用程序时,我得到了以下错误。任何帮助都将不胜感激。 根:生成。格拉德尔 settings.gradle 应用程序:生成。格拉德尔 失败:生成失败,出现异常*其中:设置文件“/Users/Documents/android/MyApplication5/Settings。gradle“*出了什么问题:无法编译设置文件”//Users/anand/Documents/android/My
我正在尝试在phpmmyadmin中创建下表,但我得到上面的错误 以上所有内容都运行完美,但是当我尝试创建下一个表时,我得到了上面的错误 任何帮助都将不胜感激,瑞秋
我需要对包含印地语、马拉地语、马拉雅拉姆语等语言文本的图像进行光学字符识别。我在python脚本中使用AWS文本API,但扫描印地语文本文档上的OCR给出了不正确的英语单词的响应。 AWS Textract支持印地语吗? 请指导我。 提前谢谢你。
问题内容: 在Selenium支持的平台上,支持的最高selenium版本是v10。我认为这与当前扩展支持版本10一致,v17是下一个ESF,将于2012年11月20日发布。 Firefox扩展支持 Firefox发布日历 但是, 查看Selenium客户端驱动程序2.25 的发行说明(2012年7月18日)时,它会显示“将Firefox的支持版本更新为17”。 我们应该阅读哪一页?Seleniu