当前位置: 首页 > 工具软件 > ConceptNet > 使用案例 >

Conceptnet5

能旭
2023-12-01

一、简介

开源的常识性知识图谱,多语言

二、数据特点

2.1 Languages

完整点这里
用语言缩写表示某个语言

  • 所有的中文语言(繁体,简体,广东,等)都用zh表示。

核心语言:
这里有10个支持得比较好的核心语言,对这10个语言提供所有的API,包括word vectors。

CodeLanguageVocab size
enEnglish1803873
zhChinese242746

2.2 Edges

完整点这里
每个Edges是一个dict,包含多个key,如下所示:

  • weight:
    正常weight=1, 但是weight可以更高或更低,所有的weights必须为正。
  • 等等

2.3 Relations

完整点这里
每个Edge都有1个Relation:
关系命名使用的是驼峰命名法,在/r/命名空间下,例如:/r/PartOf

下面是涉及的34种关系:

Relation URLDescriptionExamples
/r/RelatedTo最普遍的关系,A和B之间存在正向关系,但无法表述该关系是什么learn(学习) <-> erudition(博学)
/r/FormOfA是B的变体slept -> sleep
/r/IsAA是B的一个子类或者实例car -> vehicle ; BeiJin -> city
/r/PartOfA是B的一部分gearshift -> car
/r/HasAB是A的一部分bird -> wing, pen -> ink
/r/UsedForA的意图是Bbridge -> cross water
/r/CapableOfA通常用来做Bknife -> cut
/r/AtLocationA坐落在B中butter(黄油) → refrigerator(冰箱), Boston(波士顿) → Massachusetts(马萨诸塞州)
/r/CausesAB是事件,A发生通常导致B发生exercise -> sweat
/r/HasSubeventAB是事件, B是A的一个子事件eating -> chewing
/r/HasFirstSubeventAB是事件, B是A的第一个子事件sleep -> close eyes
/r/HasLastSubeventB是A的最后一个子事件cook -> clean up kitchen
/r/HasPrerequisite为了A发生,B应该先发生; A依赖于Bdream -> sleep
/r/HasPropertyB是A的一个属性, B可以用来描述Aice -> cold
/r/MotivatedByGoal做A是为了完成目标Bcompete -> win
/r/ObstructedByB会妨碍Asleep -> noise

待更

2.4 URL hierarchy

完整看这里

ConceptNet中的每个object都有一个URL(结构像一个路径,用来查找某个实体),例如:common sense概念在英文中有URL/c/en/common_sense

URLS的意义是丰富的, 给定一个URL,可以知道object是什么, 给定一个object,你可以猜到URL是什么样子的。

不同类型的objects以路径中的第一个element来区分:

  • /a/ assertions, 也称边(as of 5.5)
  • /c/ concepts, 也称terms(单词或话语片段)
  • /d/ datasets
  • /r/ 与语言无关的关系, 例如/r/IsA
  • /and/ conjunctions of sources that were used together to create an assertion

Concept URIs
Concept URIs 包含 concept的文本内容,以下划线"_"代替空格。

每个concept至少有3个部分,第一个/c/表示它是一个concept,第二个部分表示它是哪种语言,第三个部分表示concept text, 也可能有第4部分,表示词性。
例如:

  • /c/en/play_game
    表示英文concept “play game”
  • /c/en/read/v
    表示英文concept “read” 动词
  • /c/ja/紙
    表示日语concept “紙”

第四部分有以下几类:

  • /n : 名词
  • /v : 动词
  • /a : 形容词
  • /s : adjective satellite
  • /r : 副词

省…

三、下载

文件下载点这里

3.1 边

格式如下所示,一共包含五项:

/a/[/r/Antonym/,/c/ab/агыруа/n/,/c/ab/аҧсуа/]   /r/Antonym      /c/ab/агыруа/n  /c/ab/аҧсуа     {"dataset": "/d/wiktionary/en", "license": "cc:by-sa/4.0", "sources": [{"contributor": "/s/resource/wiktionary/en", "process": "/s/process/wikiparsec/1"}], "weight": 1.0}
  • 整条边的URI
    /a/[/r/Antonym/,/c/ab/агыруа/n/,/c/ab/аҧсуа/]和后面的信息是有重复的
  • 边表示的关系
  • 边的起始节点
  • 边的结束节点
  • 边的额外信息
    例如:数据集,许可证,来源信息,边权重

3.2 原始话句

这里提供了构建Conceptnet5的原始文本。

3.3 Term vectors(embeddings)

ConceptNet提供了预训练,可供下载的term vectors,用以替换word2vec或者Glove,称为ConceptNet Numberbatch

这里查看

 类似资料:

相关阅读

相关文章

相关问答