当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

Snorkel

快速创建训练数据的系统

授权协议 Apache-2.0

开发语言 Python JavaScript SHELL

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区不详

投递者云隐水

操作系统跨平台

开源组织无

适用人群未知

软件概览

Snorkel 是一种快速创建、建模和管理训练数据的系统，目前主要聚焦在加速开发结构化或“黑暗”数据提取的应用程序，该应用程序适用于大规模标注训练集不切实际或不容易获取的领域。

Snorkel 基于新的数据编程(data programming)模式，开发人员专注于编写一组标记函数(labeling functions)，这些函数只是以编程方式标记数据的脚本。由此产生的标签是杂乱的，但 Snorkel 可自动建模这个过程进行学习，本质上，标签函数比其他的更精确，然后用它来训练最终模型（例如，TensorFlow 中的深度神经网络）。

使用案例

snorkel 快速培训数据创建与弱监督 2018年3月30日 BY FRANCE·0 COMMENTS

标记培训数据越来越成为部署机器学习系统的最大瓶颈。我们展示了Snorkel，这是首个同类系统，使用户无需手工标记任何培训数据即可培训最先进的模型。相反，用户编写表示任意启发式的标签函数，其可能具有未知的准确性和相关性。通过整合我们最近提出的最新机器学习范例 – 数据编程的第一个端到端实现，浮潜可以减少他们的输出而无需访问基本事实。我们根据过去一年与公司，机构和研究实验室合作的经验，提出了一

相关资料

如何为opennlp解析器创建自己的训练数据

我是opennlp新手，需要帮助来定制解析器我已经使用了带有预训练模型的opennlp解析器en-pos-maxtent.bin用相应的语音部分标记新的原始英语句子，现在我想自定义标签。例句：狗跳过墙。使用en-pos-maxtent.bin进行POS标记后，结果将是狗-NNP 跳跃-VBD 超过-在 The-DT wall-NN 但是我想训练我自己的模型并用我的自定义标签标记单词，例如
快速创建JSON

问题内容：我想快速创建一个像这样的json：如何创建此json？问题答案：创建您的对象，在这种情况下为字典：从对象创建JSON数据：如果需要，请使用JSON数据作为字符串：
NLTK punkt的训练数据格式

问题内容：我想跑分句。没有训练模型，因此我将单独训练模型，但是我不确定我使用的训练数据格式是否正确。我的训练数据是每行一句话。我找不到与此有关的任何文档，只有此线程（https://groups.google.com/forum/#!topic/nltk- users/bxIEnmgeCSM ）揭示了一些有关训练数据格式的信息。句子标记器的正确训练数据格式是什么？问题答案：嗯，是的，P
预测sklearn中的训练数据

问题内容：我像这样使用scikit-learn的SVM：我的问题是，当我使用分类器预测训练集成员的班级时，即使在scikit- learns实现中，分类器也可能是错误的。（例如）问题答案：是的，可以运行以下代码，例如：分数是0.61，因此将近40％的训练数据被错误分类。部分原因是，即使默认内核是（理论上也应该能够对任何训练数据集进行完美分类，只要您没有两个带有不同标签的相同训练点），也可
四、训练和测试数据

为了评估我们的监督模型的泛化能力，我们可以将数据分成训练和测试集： from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target 考虑如何正常执行机器学习，训练/测试分割的想法是有道理的。真实世界系统根据他们拥有的数据进行训练，当其他数据进入时（来自客户，传感器或其他来源），经过训
openNLP的自定义模型创建和训练

我的要求是像这样分析句子。“给我找一本饥饿的潮汐书。”或者“饥饿的潮水或破碎的镜子，哪一个更好。”饥饿的潮汐和破碎的镜子是书的名字，为此我需要创建一个自定义模型，在给定的令牌数组中找到书的标题。因此，稍后我可以根据给定的句子创建一个查询。请让我知道我如何做到这一点，或者如果有任何其他方法来分析这样的句子。
Keras不训练整个数据集

问题内容：因此，我一直遵循Google的官方tensorflow指南，并尝试使用Keras构建一个简单的神经网络。但是，在训练模型时，它不使用整个数据集（具有60000个条目），而是仅使用1875个条目进行训练。有可能解决吗？输出：这是我一直在为此工作的原始Google colab笔记本：https ://colab.research.google.com/drive/1NdtzXHEpiN
使用OpenNLP训练大数据集

我有文件及其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP进行了培训。示例代码：但是我得到了一个错误：。有没有办法使用openNLP for NER来训练大型数据集？你能发布示例代码吗？当我谷歌时，我发现Class GIS和DataIndexer界面可用于训练大型数据集，但我知道如何训练？你能发布示例代码吗？

同类工具

Sockeye vosk-api ONNX Runtime Petuum Petastorm Snorkel cookiecutter-docker-science Merlion

相关阅读

使用tensorflow_datasets.load（TF 2.1）拆分训练数据以进行训练和验证 tensorflow 固定部分参数训练,只训练部分参数的实例快速创建python 虚拟环境快速创建和播放声音 Microsoft SQL Server 创建数据库快照

相关文章

Django快速入门-数据库模型 DB2创建数据库 CouchDB创建数据库 MariaDB创建数据库 SQLite 创建数据库

相关问答

使用BRAT为OpenNlp创建和训练模型？用PySpark1.6为LDA训练准备数据 KNN分类的字符串数据训练：Python 如何在OpenNLP中创建良好的NER训练模型？我如何用Pandas从一个数据帧中创建、测试和训练样本？

相关文档

IBM DB2 数据库快速入门 Qt 快速入门系列教程 Sass 快速入门 Python 快速教程 Java 快速教程