AI2的mosaic和Aristo项目简介

西门山

2023-12-01

Mosaic项目

common sense for AI
the mosaic team seeks to define,develop,and improve common sense for ai-an important, fundamental skill required to go beyond the narrow and brittle ai applications we have today.
马赛克团队致力于定义，开发和改进人工智能的常识，这是超越当今狭窄而脆弱的人工智能应用程序所需的一项重要的基本技能。

子项目

visual commonsense reading
commonsense knowledge graphs
swag:situations with adversarial generations
mosaic commonsense benchmarks
winogrande:adversarial winograd schema challenge at scale

commonsense knowledge graphs

Exploring semi-structured representations of commonsense.
ATOMIC

mosaic commonsense benchmarks

Measuring progress on Machine Common Sense.
大象能穿过门吗？ — 判断机器是否具备常识
SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference

Aristo项目

system that read and reason
the aristo project aims to build systems that demonstrate a deep understanding of the world,integrating technologies for reading,learning,reasoning and explanation
亚里士多德计划旨在建立一个对世界有深刻理解的系统，整合阅读，学习，推理和解释技术

Aristo研究领域

probing reasoning with language models 利用语言模型进行推理
通过语义片段探究自然语言推理模型
Probing Natural Language Inference Models through Semantic Fragments

multihop reasoning 多跳推理

explanation 解释

reasoning about actions 关于动作的推理

Aristo数据集

为了支持我们的研究并使社区中的其他人参与进来，我们开发了一些机器推理数据集，这些数据集说明了Aristo团队当前正在处理的各种挑战。

ARC：AI2推理挑战赛

（7787道多选题）
旨在促进对高级问题的研究，特别是需要推理，使用常识方法和其他方法进行更深入的文本理解的问题。
示例：
只需要看一下即可确定矿物的哪个属性？
A 光泽 B 质量 C 重量 D 硬度

OBQA：OpenBook问题解答，使用“教科书”和常识

旨在促进对高级问答的研究，探索对主题（将突出的事实概括为一本开放书）及其表达语言的更深刻理解。
特别是，包含需要多步推理的问题，使用常识和丰富的文字理解能力。
示例：
哪一个会让热量流过最多？
A 一条新牛仔裤 B 自助餐厅中的钢勺 C 商店里的棉花糖 D Calvi klein棉质帽子

ProPara：包含描述过程或步骤的段落

ProPara旨在在程序文本的背景下促进对自然语言理解的研究。这要求识别该段中描述的动作，并跟踪所涉及实体发生的状态更改。

构成该数据集基础的程序段落是众包而不是合成的，因此它们反映了人工生成内容的细微差别以及随之而来的挑战。

ProPara数据集涵盖了广泛的主题（约200个），从科学程序（如“火山爆发时会发生什么？”和“心脏如何工作？”）到日常活动（如“如何使用洗碗机”和“描述露营的典型步骤”。

示例ProPara 问题
鉴于此五句程序段：

①太阳的重力将其质量向内拉。②太阳有很大的压力。③压力迫使氢原子在核反应中融合在一起。④反应产生的能量发出不同种类的光。⑤光线传播到地球。

考虑两个参与者实体：

氢原子
阳光或光
预测以下四个问题的答案：

有什么输入？
也就是说，哪些参与者在程序开始之前存在，而在程序结束之后不存在？或者，消耗了哪些参与者？
答：输入是氢原子。
有什么输出？
也就是说，程序结束后有哪些参与者存在，而程序开始前不存在？或者，产生了哪些参与者？
答：输出是光（或日光）。
什么是转换？
也就是说，哪些参与者转换为其他参与者？
答案：句子3 中氢的参与原子被转换为光（或日光）。
有什么举动？
也就是说，哪些参与者从一个位置移动到另一个位置？
答案：句子5中的参与者光（或日光）从太阳移动到地球。

QASC：通过句子组合进行问题解答，测试多跳质量检查

QASC（即通过句子组合进行问题解答）旨在通过问题将多跳推理研究进一步推进，这些问题从问题本身无法清楚地分解为更简单的事实。此属性使得从大型语料库（也提供）中检索相关事实并将其组合在一起以回答问题都具有挑战性。

QASC 问题示例
这是训练集中JSON格式的示例问题。它包含多项选择题（“问题”），已知的正确答案（“ answerKey”）和三个相关事实（字段“ fact1”，“ fact2”和“ combinedfact”）。

{
  "id": "3UWN2HHPUY4HEFIDUEODFN4T2J5SNS",
  "question": {
    "stem": "What can trigger immune response?",
    "choices": [
      { "label": "A", "text": "harmful substances" },
      { "label": "B", "text": "Transplanted organs" },
      { "label": "C", "text": "desire" },
      { "label": "D", "text": "an area swollen with pus" },
      { "label": "E", "text": "death" },
      { "label": "F", "text": "pain" },
      { "label": "G", "text": "colors of the spectrum" },
      { "label": "H", "text": "Contaminated wounds" }
    ]
  },
  "answerKey": "B",
  "fact1": "Antigens are found on cancer cells and the cells of transplanted organs.",
  "fact2": "Anything that can trigger an immune response is called an antigen.",
  "combinedfact": "transplanted organs can trigger an immune response"
}

WIQA：有关段落描述的过程的“如果…”问题

WIQA数据集V1具有39705个问题，其中包含一个段落的摄动和可能的影响。数据集分为29808个训练问题，6894个开发问题和3003个测试问题。
数据说明

QuaRel and QuaRTz：测试对定性关系的理解

举例：
John was looking at sunscreen at the retail store. He noticed that sunscreens that had lower SPF would offer protection that is
A longer B shorter

SciTail：具有自然句子的文字蕴涵（27k对）

SciTail 问题示例
前提：树木中的生物活动所必需的水和其他物质，通过木质部的薄而空心的管子穿过整个茎和树枝。假设：茎通过管道系统将水输送到植物的其他部位。标签：需要

前提：切下植物茎，将茎插入管中，然后将茎浸入水盆中。假设：茎通过管道系统将水输送到植物的其他部位。标签：中性

SciTail中的示例来自多项选择科学问题，方法是将问题和正确的选择转换为假设，然后将检索到的句子转换为前提。在这种情况下，我们使用了：

多项选择题：

以下哪一项最能说明茎如何将水输送到植物的其他部位？

（A）通过一种叫做叶绿素的化学物质。
（B）通过光合作用。
（C）通过管道系统。
（D）通过将水转化为食物。
从问题和答案选择中得出的假设（C）：

茎杆通过管道系统将水输送到工厂的其他部分。

检索到的前提：

树木中生物活性所必需的水和其他物质，在木质部或木质组织的细空心管中穿过茎和树枝。

已检索的前提：

切下植物茎，将茎插入管中，然后将茎浸入水盆中。”

SciQ：13k众包科学问题

此数据集包含13679个有关物理，化学和生物学的众包科学考试问题。问题采用多项选择题形式，每个问题有4个答案选项。对于大多数问题，提供了附加的段落以及正确答案的支持证据。

成绩

为了推动和展示我们的研究，我们开发了Aristo System来回答现实世界中的科学问题。在2019年，该系统在8年级纽约摄政科学考试中取得了里程碑式的成功，在考试的非图谱，多项选择（NDMC）问题上得分超过90％，即使在三年前，最好的系统也得分不到60％。