当前位置: 首页 > 工具软件 > Txtai > 使用案例 >

txtai 教程系列 10----从文档中提取文本

庄阿苏
2023-12-01

安装依赖
安装txtai和所有依赖项。由于本文使用的是可选管道,因此我们需要安装管道附加包。
pip install txtai[pipeline]

Get test data

wget -N https://github.com/neuml/txtai/releases/download/v3.5.0/tests.tar.gz
tar -xvzf tests.tar.gz

Install NLTK

import nltk
nltk.download(‘punkt’)
创建一个 Textractor 实例
Textractor 实例是提取文本的主要入口点。此方法由 Apache Tika 提供支持,Apache Tika 是一个用 Java 编写的强大的文本提取库。Apache Tika支持大量文件格式:PDF、Word、Excel、HTML 等。Python Tika 包会自动安装 Tika 并启动用于读取提取数据的本地 REST API 实例。

注意:这需要在本地安装 Java。
from txtai.pipeline import Textractor

Create textractor model

textractor = Textractor()
提取文本
下面的示例显示了如何从文件中提取文本。
textractor(“txtai/article.pdf”)
Introducing txtai, an AI-powered search engine built on Transformers Add Natural Language Understanding to any application Search is the base of many

 类似资料: