开源的常识性知识图谱,多语言
完整点这里
用语言缩写表示某个语言
核心语言:
这里有10个支持得比较好的核心语言,对这10个语言提供所有的API,包括word vectors。
Code | Language | Vocab size |
---|---|---|
en | English | 1803873 |
zh | Chinese | 242746 |
完整点这里
每个Edges是一个dict,包含多个key,如下所示:
完整点这里
每个Edge都有1个Relation:
关系命名使用的是驼峰命名法,在/r/命名空间下,例如:/r/PartOf
下面是涉及的34种关系:
Relation URL | Description | Examples |
---|---|---|
/r/RelatedTo | 最普遍的关系,A和B之间存在正向关系,但无法表述该关系是什么 | learn(学习) <-> erudition(博学) |
/r/FormOf | A是B的变体 | slept -> sleep |
/r/IsA | A是B的一个子类或者实例 | car -> vehicle ; BeiJin -> city |
/r/PartOf | A是B的一部分 | gearshift -> car |
/r/HasA | B是A的一部分 | bird -> wing, pen -> ink |
/r/UsedFor | A的意图是B | bridge -> cross water |
/r/CapableOf | A通常用来做B | knife -> cut |
/r/AtLocation | A坐落在B中 | butter(黄油) → refrigerator(冰箱), Boston(波士顿) → Massachusetts(马萨诸塞州) |
/r/Causes | AB是事件,A发生通常导致B发生 | exercise -> sweat |
/r/HasSubevent | AB是事件, B是A的一个子事件 | eating -> chewing |
/r/HasFirstSubevent | AB是事件, B是A的第一个子事件 | sleep -> close eyes |
/r/HasLastSubevent | B是A的最后一个子事件 | cook -> clean up kitchen |
/r/HasPrerequisite | 为了A发生,B应该先发生; A依赖于B | dream -> sleep |
/r/HasProperty | B是A的一个属性, B可以用来描述A | ice -> cold |
/r/MotivatedByGoal | 做A是为了完成目标B | compete -> win |
/r/ObstructedBy | B会妨碍A | sleep -> noise |
待更
完整看这里
ConceptNet中的每个object都有一个URL(结构像一个路径,用来查找某个实体),例如:common sense
概念在英文中有URL/c/en/common_sense
。
URLS的意义是丰富的, 给定一个URL,可以知道object是什么, 给定一个object,你可以猜到URL是什么样子的。
不同类型的objects以路径中的第一个element来区分:
Concept URIs
Concept URIs 包含 concept的文本内容,以下划线"_"代替空格。
每个concept至少有3个部分,第一个/c/表示它是一个concept,第二个部分表示它是哪种语言,第三个部分表示concept text, 也可能有第4部分,表示词性。
例如:
第四部分有以下几类:
省…
文件下载点这里
格式如下所示,一共包含五项:
/a/[/r/Antonym/,/c/ab/агыруа/n/,/c/ab/аҧсуа/] /r/Antonym /c/ab/агыруа/n /c/ab/аҧсуа {"dataset": "/d/wiktionary/en", "license": "cc:by-sa/4.0", "sources": [{"contributor": "/s/resource/wiktionary/en", "process": "/s/process/wikiparsec/1"}], "weight": 1.0}
这里提供了构建Conceptnet5的原始文本。
ConceptNet提供了预训练,可供下载的term vectors,用以替换word2vec
或者Glove
,称为ConceptNet Numberbatch
点这里查看