|
深度进修的”深度”, 早几年接头的挺多的,身边有差异的领略:深度=更大局限的网络,也有认为:深度=更抽象的特征,连年来物理上也有人侧面显示:深度=玻璃相转变,假如后者的概念创立,那么仅仅引入GPU甚至FPGA硬件的目标只是加速, 没有算法的辅佐(调参也算一种算法,后头会表明)是不会加深的!(注:等号暗示强干系,不暗示等价) 怀抱”深“ 这个”深“同巨大度的接洽是很细密的。神经网络的巨大度,我们可以利用层数,神经元数目,可能毗连权重数目作为怀抱。相对的,数据自己的巨大度,我们用带标签的数据的比例和不带标签的数据的比例来权衡。 深度=局限?网络巨大性同分类误差之间的接洽: 70-90年月关于神经网络的数学结论可谓不足为奇,根基上许多接头了局限和泛化之间的干系,尤其是分类问题,关于分类的练习误差和测试误差(泛化本领),根基上归结为几个根基要求和限制: 模子要多巨大: 增加巨大度老是能拟合好练习样本,而要得到精采的泛化本领,普遍认为巨大度应该为练习数据数目标某种幂次,才气有较好的泛化本领。并且幂次要求小于1,若否则,每增加一个练习样本,都必需要扩充网络,这种模子没有任何实际意义。谢天谢地,神经网络可以满意这个要求,参考文献3。 要几多练习数据:假如网络节点数为 N,毗连权重数为W,那么泛化误差小于任意指定值ε 的一个公道的要求即是: 练习数据的数目 >(W/ε)Log(N/ε),这说明巨大的模子需要更多的练习以得到优秀的泛化本领!事实上,不绝提高数据量,多层感知器模子也能到达今朝深度进修的程度(参考文献2),认为深度进修=普通多层神经网络,简直有现实的来由。 奥卡姆剃刀迷惑:理论上,带一层埋没层的核基神经网络可以将任意数据拟合好(领略为级数展开,每个项就是一个埋没神经元),那么提高巨大度的浸染是啥?无法争辩的事实是,数据量足够高今后,简朴的分类器都能给出优秀的功效。关于这一点从相变角度能表明为何需要实际工程需要一个“太过巨大的网络”,而不是一个巨细“方才好的”网络。 巨大的价钱:一个根基的定理,测试误差 >= 练习误差 + 模子巨大度,太过巨大的价钱即是过拟合。防备过拟合的要领没有通论,业界通称“黑邪术”。 上面4点汇报我们的表象是,针对静态非时序分类问题,我们貌似可以不要高峻上的算法,只要数据量足够,网络足够巨大,呆板够大,速度够快,懂点“黑邪术”,在此刻的家产界的数据量和模子凡是都是用亿来权衡其局限的时代,此乃现世王道。 深度=更多抽象特征?陆续串问题来了,作甚特征?作甚好的特征?深度进修的特征为何被称为抽象的?多层和抽象的干系是啥? 特征=函数展开的基函数?数学大将基函数领略成特征是可以的,虽然不须要完备,也不须要正交。好比下图,图片特征提取,稀疏编码就是在一堆特征傍边寻找最少且拟合最好的特征组,前提假设是图片都可以被解析为这些特征的线性叠加。然而前概要求解析仍然是线性的,使得呆板上好计较,可是实际问题需要的特征凡是是差异范例的组合,强行线性组合就像是吃正宗粤菜的时候来个山东煎饼果子一样。(图取自吴恩达的slide) 特征=低维流形嵌入? 发生成千上万个没履历证的特征老是容易的,但去除冗余特征,也就是去掉那些添不添加都不影响功效的特征,就需要相当的能力。一种即是通过低维流形去寻找最重要的布局,这种要领可以操作多层自编码去逐层压缩维度,也可以用传统多层神经网络+Isomap雷同的要领一步到位地压缩维度,然后不绝调解使得嵌入低维的数据点“相互疏散的最远”。由于数据点靠的近暗示相似,故此这种要领能将数据自己的平移旋转按顺序嵌入到每块低维子流形傍边。反过来说,假如练习数据已经包括有其自己的旋转平移,其低维子流形将会被填充得“越发的饱满”(如绿色的圆圈,因为手写数字1无论如何写都是“ |” 的某种旋转拉伸),其低维的界线就更容易被发明。然而这种要领是假设数据的可表明性埋没在其低维流形布局上,不免让人费解,并且差异标签的嵌入子流形可否被充实疏散也长短常坚苦的工作。(参考G.E.Hinton 06年 nature, Y LeCun,etc) |














