本教程系列将涵盖txtai的主要用例,txtai 是一个开源平台,用于由语言模型提供支持的语义搜索和工作流。系列中的每一部分都有对应的笔记本,可以完整再现每篇文章。
介绍txtai
txtai是一个开源平台,用于由语言模型提供支持的语义搜索和工作流。
传统的搜索系统使用关键字来查找数据。语义搜索具有对自然语言的理解,并识别具有相同含义的结果,不一定是相同的关键字。
txtai 构建嵌入数据库,它是向量索引和关系数据库的结合。这将启用与 SQL 的相似性搜索。嵌入数据库可以独立存在和/或充当大型语言模型 (LLM) 提示的强大知识源。
以下是主要功能的摘要:
�� 与 SQL、对象存储、主题建模、图形分析、多个向量索引后端(Faiss、Annoy、Hnswlib)的相似性搜索以及对外部向量数据库的支持
�� 为文本、文档、音频、图像和视频创建嵌入
�� 由运行问答、标记、转录、翻译、总结、LLM 提示等的语言模型提供支持的管道
↪️️ 将管道连接在一起并聚合业务逻辑的工作流。txtai 流程可以是简单的微服务或多模型工作流。
⚙️ 使用 Python 或 YAML 构建。可用于JavaScript、Java、Rust和Go的 API 绑定。
☁️ 可与容器编排系统(如 Kubernetes)横向扩展的云原生架构
集成矢量搜索、会话搜索、自动摘要、转录、翻译等。
以下应用程序由 txtai 提供支持。
txtchat - 所有人的对话搜索和工作流程
paperai - 医学/科学论文的语义搜索和工作流程
codequestion - 开发人员的语义搜索
tldrstory - 标题和故事文本的语义搜索
txtai 是用 Python 3.7+、Hugging Face Transformers、Sentence T