问:给出一段文字,如“这是一次测试”;如何建立一个机器学习模型来获得单词出现的次数例如在这篇文章中,单词数是4。训练后,可以预测文本字数。
我知道写程序很容易(像下面的伪代码),
data: memory.punctuation['~', '`', '!', '@', '#', '$', '%', '^', '&', '*', ...]
f: count.word(text) -> count =
f: tokenize(text) --list-->
f: count.token(list, filter) where filter(token)<not in memory.punctuation> -> count
然而在这个问题上,我们需要使用机器学习算法。我想知道机器如何学习计数的概念(目前,我们知道机器学习擅长分类)。有什么想法和建议吗?提前谢谢。
失败:
我们可以使用像word2vec(编码器)这样的东西来构建词向量;如果我们考虑seq2seq方法,我们可以训练像这样的东西
我们知道机器学习擅长分类。如果我们把“4”当作一个类,那么类的数量是无限的;如果我们使用
count/text做一个棘手的操作。长度
作为预测,我还没有得到一个适合训练数据集的模型(模型不收敛);例如,如果我们使用许多短句来训练模型,它将无法预测长句的长度。这可能与信息悖论有关:我们可以将书中的数据编码为0。使用机器在杆上标记一个位置,将其分成两部分,长度为a和b,其中a/b=0。十、但是我们找不到机器
。
使用NLTK进行单词计数,
来自nltk的。tokenize import word\u tokenize text=“上帝伟大!”word\u count=len(word\u tokenize(text))打印(word\u count)
我认为我们可以将其视为一个分类问题,将字符作为输入,if分词器
作为输出。
换句话说,在某个时间点t,我们输出同一时间点的输入字符是否为分词符(YES)或否(NO)。如果是,则增加字数。如果否,则读取下一个字符。
在现代英语中,我认为不会有长单词。因此,简单的RNN模型可能不需要考虑消失梯度。
让我知道你的想法!
回归问题呢?
我认为它会运行得很好,最终它会一直输出几乎整个数字。
您还可以训练一个简单的RNN来完成这项工作,假设您使用的是热编码,并从上一个状态获取输出
如果V_h
都是零,但是空格索引(将是1
)和V_x
,那么网络将实际对空格求和,如果c
在末尾是1
,那么输出将是每个长度的字数!
本文向大家介绍机器学习中的距离计算方法?相关面试题,主要包含被问及机器学习中的距离计算方法?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 设空间中两个点为 欧式距离: cos= 切比雪夫距离:max
从sklearn加载流行数字数据集。数据集模块,并将其分配给可变数字。 分割数字。将数据分为两组,分别命名为X_train和X_test。还有,分割数字。目标分为两组Y_训练和Y_测试。 提示:使用sklearn中的训练测试分割方法。模型选择;将随机_状态设置为30;并进行分层抽样。使用默认参数,从X_序列集和Y_序列标签构建SVM分类器。将模型命名为svm_clf。 在测试数据集上评估模型的准确
计算机编程是编写计算机程序的行为,计算机程序是使用计算机程序设计语言编写的指令序列,以通过计算机执行指定的任务。
Index 基本遵从《统计学习方法》一书中的符号表示。 除特别说明,默认w为行向量,x为列向量,以避免在wx 中使用转置符号;但有些公式为了更清晰区分向量与标量,依然会使用^T的上标,注意区分。 输入实例x的特征向量记为: 注意:x_i 和 x^(i) 含义不同,前者表示训练集中第 i 个实例,后者表示特征向量中的第 i 个分量;因此,通常记训练集为: 特征向量用小n表示维数,训练集用大N表示个数
我已经准备好了机器学习算法。我想在一个拥有70个城市的国家将其投入生产。但在将其推广到 70 个城市之前,我想在 1 个城市进行实验,以评估它在生产中的性能。但是,我现在面临一个问题,如果出现以下情况,我应该设置什么标准:1. 时间(我可以将其投入生产多少个月)2.数据(在实时环境中我需要多少数据来评估算法性能) 任何人都可以在生产环境中指导此机器学习实验吗? 编辑:我正在将机器学习应用于美国的价
Scikit-learn (http://scikit-learn.org/) 是一个机器学习领域的开源套件。整个专案起始于 2007年由David Cournapeau所执行的Google Summer of Code 计画。而2010年之后,则由法国国家资讯暨自动化研究院(INRIA, http://www.inria.fr) 继续主导及后续的支持及开发。近几年(2013-2015)则由 IN
这份文件的目的是要提供 Python 之机器学习套件 scikit-learn (http://scikit-learn.org/) 的中文使用说明。一开始的主要目标是详细说明 scikit-learn 套件中的范例程式的使用流程以及相关函式的使用方法。目前使用版本为 scikit-learn version 0.19 以上
Scikit-learn 套件的安装 目前Scikit-learn同时支持Python 2及 3,安装的方式也非常多种。对于初学者,最建议的方式是直接下载 Anaconda Python (https://www.continuum.io/downloads)。同时支持 Windows / OSX/ Linux 等作业系统。相关数据分析套件如Scipy, Numpy, 及图形绘制库 matplot