当前位置: 首页 > 知识库问答 >
问题:

卷积神经网络,卷积矩阵(核)

邵繁
2023-03-14

下午好在第一阶段,在卷积神经网络(输入层)的输入上,我们接收一个源图像(因此是手写英文字母的图像)。首先,我们使用一个从左到右的nxn窗口来扫描图像并在内核(卷积矩阵)上乘法来构建特征映射?但没有人写过内核应该具有什么样的精确值(换句话说,我应该将从n*n窗口检索到的数据相乘到什么样的内核值)。是否适合在这个用于边缘检测的卷积核上乘以数据?有许多卷积核(浮雕、高斯滤波器、边缘检测、角度检测等)?但是,还没有哪一个内核被写入到检测手写符号所需的乘法数据的精确内核中。

边缘检测3×3核样本

核上乘法的卷积运算

此外,如果整个图像的大小为30×30,那么是否可以使用5×5的窗口来构建特征地图?这是否足以达到字母检测的最佳精度?

在什么确切的内核上最好将整个图像的面积相乘以获得字母识别的最大精度?或者最初内核中的所有值都等于0?我还可以问一下,应用什么公式或规则来检测要构建的特征图的总需求量?或者如果任务是在英语语言的字母识别中,那么在特征图构建过程的每个阶段都必须有精确的25个特征图?谢谢回复!

共有1个答案

阎安邦
2023-03-14

在CNN中,卷积核是一个共享权重矩阵,并且以与其他权重类似的方式学习。它以相同的方式初始化,使用小的随机值,并对接收其输出的所有特征(即通常卷积层输出中的所有“像素”)的反向传播权重增量求和

典型的随机内核的性能有点像边缘检测器。

训练后,第一个CNN层可以显示,如果您熟悉图像处理,通常会学习一些可以解释的内核

这里有一个很好的内核特性动画视图:http://cs.nyu.edu/~yann/research/sparse/

简而言之,你的答案是:不需要寻找正确的内核来使用。相反,寻找一个CNN库,您可以在其中设置参数,例如卷积层的数量,并研究在内核学习时查看内核的方法——大多数CNN库将有一种文档化的方式来可视化它们。

 类似资料:
  • 注意: 本教程适用于对Tensorflow有丰富经验的用户,并假定用户有机器学习相关领域的专业知识和经验。 概述 对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题,其任务是对一组大小为32x32的RGB图像进行分类,这些图像涵盖了10个类别: 飞机, 汽车, 鸟, 猫, 鹿, 狗, 青蛙, 马, 船以及卡车。 想了解更多信息请参考CIFAR-10 page,以及Alex Kriz

  • 卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络

  • 在了解了机器学习概念之后,现在可以将注意力转移到深度学习概念上。深度学习是机器学习的一个分支。深度学习实现的示例包括图像识别和语音识别等应用。 以下是两种重要的深度神经网络 - 卷积神经网络 递归神经网络 在本章中,我们将重点介绍CNN - 卷积神经网络。 卷积神经网络 卷积神经网络旨在通过多层阵列处理数据。这种类型的神经网络用于图像识别或面部识别等应用。CNN与其他普通神经网络之间的主要区别在于

  • 主要内容:卷积神经网络深度学习是机器学习的一个分支,它是近几十年来研究人员突破的关键步骤。深度学习实现的示例包括图像识别和语音识别等应用。 下面给出了两种重要的深度神经网络 - 卷积神经网络 递归神经网络。 在本章中,我们将关注第一种类型,即卷积神经网络(CNN)。 卷积神经网络 卷积神经网络旨在通过多层阵列处理数据。这种类型的神经网络用于图像识别或面部识别等应用。 CNN与任何其他普通神经网络之间的主要区别在于CNN

  • 注意: 本教程适用于对Tensorflow有丰富经验的用户,并假定用户有机器学习相关领域的专业知识和经验。 概述 对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题,其任务是对一组32x32RGB的图像进行分类,这些图像涵盖了10个类别: 飞机, 汽车, 鸟, 猫, 鹿, 狗, 青蛙, 马, 船以及卡车。 想了解更多信息请参考CIFAR-10 page,以及Alex Krizhev

  • 在“多层感知机的从零开始实现”一节里我们构造了一个含单隐藏层的多层感知机模型来对Fashion-MNIST数据集中的图像进行分类。每张图像高和宽均是28像素。我们将图像中的像素逐行展开,得到长度为784的向量,并输入进全连接层中。然而,这种分类方法有一定的局限性。 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。 对于大尺寸的输入图像,使用全连接层容易造成模型过大