txtai 与数据存储无关,该库分析文本集。以下示例展示了如何在 Elasticsearch 系统之上添加提取式问答。
安装依赖
安装txtai和Elasticsearch。
pip install txtai elasticsearch
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.1-linux-x86_64.tar.gz
tar -xzf elasticsearch-7.10.1-linux-x86_64.tar.gz
chown -R daemon:daemon elasticsearch-7.10.1
启动一个 Elasticsearch 实例。
import os
from subprocess import Popen, PIPE, STDOUT
server = Popen([‘elasticsearch-7.10.1/bin/elasticsearch’], stdout=PIPE, stderr=STDOUT, preexec_fn=lambda: os.setuid(1))
sleep 30
下载数据
这个例子将处理CORD-19数据集的一个子集。COVID-19 开放研究数据集 (CORD-19) 是一个免费的学术文章资源,由领先的研究小组