Sphere

知识密集型 NLP 语料库
授权协议 CC BY-NC 4.0
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 常源
操作系统 跨平台
开源组织 Facebook
适用人群 未知
 软件概览

Sphere 是 Meta(Facebook)开源的 Web 语料库,作为一个通用的、非结构化的知识源,用于同时进行多个 KI-NLP 任务。

Meta 利用一个开放的网络语料库,加上强大的检索基线(而不是一个黑盒式的商业搜索引擎),这种方法有利于透明和可重复的研究,并为未来的研究开辟了一条道路,以比较为人类优化的搜索引擎和为神经网络设计的检索解决方案。作为 Web 语料库,Meta 使用 CCNet 的一个子集,涵盖 1.34 亿个文件,分成 9.06 亿个段落。

引用

如果你要在研究中使用此仓库的内容,请引用以下内容:

@article{DBLP:journals/corr/abs-2112-09924,
  author    = {Aleksandra Piktus and Fabio Petroni
               and Vladimir Karpukhin and Dmytro Okhonko
               and Samuel Broscheit and Gautier Izacard
               and Patrick Lewis and Barlas Oguz
               and Edouard Grave and Wen{-}tau Yih
               and Sebastian Riedel},
  title     = {The Web Is Your Oyster - Knowledge-Intensive {NLP} against a Very
               Large Web Corpus},
  journal   = {CoRR},
  volume    = {abs/2112.09924},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.09924},
  eprinttype = {arXiv},
  eprint    = {2112.09924},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-09924.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

安装

git clone git@github.com:facebookresearch/Sphere.git
cd Sphere
conda create -n sphere -y python=3.7 && conda activate sphere
pip install -e .

索引下载

Meta 开源预先构建的 Sphere 索引:

可以直接下载和解压相应的索引文件:

mkdir -p faiss_index

wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_sparse_index.tar.gz
tar -xzvf faiss_index/sphere_sparse_index.tar.gz -C faiss_index

wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_dense_index.tar.gz
tar -xzvf faiss_index/sphere_dense_index.tar.gz -C faiss_index
  • Photo Sphere Viewer  一款基于 three.js 的简易3D插件,方便,实用,友好,看到网上有些API有错误,所以自己写一个修正版的 该js插件可以360度旋转查看全景图,也可以上下180度查看图片。使用该插件的唯一要求是浏览器支持canvas或WebGL。 DEMO:http://www.html5cn.org/article-8621-1.html 使用该全景图插件时要引入

  • 球形空间产生器 Sphere/.IN/.OUT/.PAS/.EXE 【题意】 给出求在n维坐标系中,到n+1个点距离都相同的点 输入 输入文件第一行为整数N,代表了空间的维度。 接下来N+1 行,每行N 个实数代表一个坐标。输入数据精确到小数点后6 位。 输入数据保证输出结果唯一。 输出 输出一行N 个实数代表球心的坐标,精确到小数点后三位。相邻的数字之间用一个空 格分开(行末无空格)。 由n+1

  • 练手: #include <gl/glut.h> class CVertex { public: CVertex() {} CVertex(float fv1, float fv2, float fv3, float fu, float fv, float fn1, float fn2, float fn3) { v[0] = fv1; v[1

  • <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial-scale=1.0">

  • Spring Boot版 Sharding JDBC 读写分离示列  https://github.com/yinjihuan/spring-cloud/tree/master/fangjia-sjdbc-read-write-springboot   sharding-sphere   https://www.jianshu.com/p/952108f777a3 https://www.jian

  • timit常用来做语音识别及说话人识别,毕竟开源的语音库太少了,格式:16k 16bit pcm编码 完整应该是6300段语音 timit是SPHERE格式的,用的时候需要转换下格式 参考: http://www.360doc.com/content/17/0718/09/45512753_672245873.shtml 这个是直接替换原始的文件,后面修改下,改成在新的目录生成,免得还要重新整理一

 相关资料
  • 易语言,中华名族自己的编程语言,在线易语言知识库,在线知识库查阅系统,收集有关易语言的手册教程以及介绍等。

  • 本文向大家介绍日常收集C#接口知识(知识全面),包括了日常收集C#接口知识(知识全面)的使用技巧和注意事项,需要的朋友参考一下 第一节 接口慨述   接口(interface)用来定义一种程序的协定。实现接口的类或者结构要与接口的定义严格一致。有了这个协定,就可以抛开编程语言的限制(理论上)。接口可以从多个基接口继承,而类或结构可以实现多个接口。接口可以包含方法、属性、事件和索引器。接口本身不提供

  • 本文向大家介绍易语言的Dll命令及程序集知识点,包括了易语言的Dll命令及程序集知识点的使用技巧和注意事项,需要的朋友参考一下 在易应用程序中可以直接调用系统外部动态连接库(即 Dll 库)中的命令。在调用前,必须首先进行定义,定义Dll 命令涉及到以下主要属性: Dll 命令名。定义该 Dll 命令在易程序中的使用名称; 返回值类型。定义 Dll 命令返回值的数据类型,只能为无、字节、短整数、整

  • 球体是三维空间中完美的圆形几何物体,是完全圆形球的表面。 球体被定义为与3D空间中的给定点距离r相同的点集。 该距离r是球体的radius ,给定点是球体的中心。 在JavaFX中,球体由名为Sphere的类表示。 该类属于包javafx.scene.shape 。 通过实例化此类,您可以在JavaFX中创建一个球体节点。 此类具有名为radius of double数据类型的属性。 它代表球体的

  • 问题内容: 每次运行Fabric时,它都会要求输入root密码,可以将其发送给它以进行自动提议。 问题答案: 将显示所有选项,您也可以在此处阅读它们。 特别是,我引用 -p密码,–password =密码 将env.password设置为给定的字符串;建立SSH连接或调用sudo程序时,它将用作默认密码。

  • 本文向大家介绍GO语言(golang)基础知识,包括了GO语言(golang)基础知识的使用技巧和注意事项,需要的朋友参考一下 今天说一些golang的基础知识,还有你们学习会遇到的问题,先讲解hello word package name 包机制,每一个独立的go程序都需要有一个package main的申明,主要是要为下边入口函数main()做申明的,import和java一样导入包用的 就是