Evals

OpenAI 模型评估框架
授权协议 MIT
开发语言 Python
所属分类 神经网络/人工智能、 机器学习/深度学习
软件类型 开源软件
地区 不详
投 递 者 郜俊健
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Evals 是一个评估 OpenAI 模型的框架和一个开源的基准测试注册表,你可以使用 Evals 来创建和运行评估:

  • 使用数据集来生成提示信息
  • 衡量 OpenAI 模型所提供的完成度的质量
  • 比较不同数据集和模型的性能

Evals 的目标是使建立一个评估尽可能简单,同时编写尽可能少的代码。要开始使用,建议你依次按照以下步骤进行:

  • 通读本文档,并遵循下面的设置说明。
  • 了解如何运行现有的评价:run-evals.md
  • 熟悉现有的评估模板:eval-templates.md
  • 了解构建评估的过程:build-eval.md
  • 看一个实现自定义评价逻辑的例子:custom-eval.md。

设置

要运行评估,需要设置并指定您的 OpenAI API 密钥。获取 API 密钥后,使用 OPENAI_API_KEY环境变量指定它。

下载评估

Evals 注册表使用 Git-LFS 存储,下载并安装 LFS 后,可以通过以下方式获取评估:

git lfs fetch --all
git lfs pull

你可能只想为选择的评估获取数据,则可以通过以下方式实现:

git lfs fetch --include=evals/registry/data/${your eval}
git lfs pull

进行评估

如果您要创建评估,建议直接从 GitHub 克隆此仓库并使用以下命令安装要求:

pip install -e .

使用 -e,对 eval 所做的更改将立即反映出来,而无需重新安装。

  • %matplotlib inline 本专栏所有例题数据放在 网址[https://download.csdn.net/download/u012338969/85439555(https://download.csdn.net/download/u012338969/85439555) This script demonstrate how to access the eval metrics

 相关资料
  • 模型在训练集上的误差通常称为 “训练误差” 或 “经验误差”,而在新样本上的误差称为 “泛化误差”。显然,机器学习的目的是得到泛化误差小的学习器。然而,在实际应用中,新样本是未知的,所以只能使训练误差尽量小。 当模型在训练集上表现很好而在新样本上误差很大时,称为 “过拟合”;反之,模型在训练集上误差就很大时,称为 “欠拟合”。 欠拟合通常容易解决,如 增加数据、增大训练次数、增大学习率或使用更复杂

  • 问题内容: 我如何创建一些简单的ajax评级,如本页http://watir.com/documentation/所示?每个访问者都应该能够评分,我不需要设置权限。我想将评级存储在列中。因此,用户可以按评分排序。请举一个详细的例子。我不是JavaScript专家。 我找到了一个从头开始创建评分的示例。但是它授权用户。有人可以向我显示创建没有评分者(用户)的评分的指南吗?它不仅应存储值,还应计算票数

  • 我使用自定义的Thymeleaf属性处理器将动态内容包含到视图中,该属性处理器只是在处理属性本身的同时添加额外的节点。 我使用的代码与下面的代码非常相似: 这工作得很好,但当包含的节点包含使用th:object和th:field的窗体时会中断。 我将需要的模型放在节点变量映射中,实际上th:object确实会查找并检索对象,但th:field似乎并不在意,并用一个 提前谢谢你。

  • 3.1. 交叉验证:评估估算器的表现 3.1.1. 计算交叉验证的指标 3.1.1.1. cross_validate 函数和多度量评估 3.1.1.2. 通过交叉验证获取预测 3.1.2. 交叉验证迭代器 3.1.3. 交叉验证迭代器–循环遍历数据 3.1.3.1. K 折 3.1.3.2. 重复 K-折交叉验证 3.1.3.3. 留一交叉验证 (LOO) 3.1.3.4. 留 P 交叉验证 (

  • 本文转载自 developers.google.com 作者:Meggin Kearney 原文链接:使用 RAIL 模型评估性能 RAIL 是一种以用户为中心的性能模型。每个网络应用均具有与其生命周期有关的四个不同方面,且这些方面以不同的方式影响着性能: TL;DR 以用户为中心;最终目标不是让您的网站在任何特定设备上都能运行很快,而是使用户满意。 立即响应用户;在 100 毫秒以内确认用户输入

  • 我正在尝试使用线性回归解决WEKA中数字属性的数字分类问题,然后我想在现有数据集上测试我的模型,并在当前测试数据集上重新评估模型。 作为评估的结果,我得到了总结: 相关系数0.9924平均绝对误差1.1017均方根误差1.2445实例总数17 但我没有这里显示的结果:http://weka.wikispaces.com/Making预言 如何让WEKA达到我需要的结果? 非常感谢。 要回答我的问题

  • 校验者: @飓风 @小瑶 @FAME @v 翻译者: @小瑶 @片刻 @那伊抹微笑 有 3 种不同的 API 用于评估模型预测的质量: Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 esti

  • 提交时不调用initBinder。仅在页面加载时。因此,我的控制器无法获得userTypes对象。少了什么?谢谢!