ANN&DL
史
人工智能元年:1956年,美国,达特茅斯会议(用机器模仿人类学习以及其他方面的智能)
参会人员有:约翰·麦卡锡,克劳德·香农等
历史探索:亚里士多德(三段论),帕斯卡(机械计算器),莱布尼兹(微积分,二进制),冯诺依曼(计算机,博弈论),图灵…
简介
传统的AI技术:串行处理,用程序实现,精确计算(模仿左脑)
ANN技术:并行处理,用人工神经元之间相互作用实现,非精确计算(模拟处理)(模仿右脑)
人工神经网络(Artificial Neural Networks):数学模型
关键点:
1)信息的分布表示
2)运算的全局并行与局部操作
3)处理的非线性特征
对大脑基本特征的模拟:
1)形式上:神经元机器及其连结
2)表现特征:信息的存储与处理
学习能力:
其信息的分布存储提供了容错能力,系统在受到局部损伤时还可以正常工作
对一类网来说,完成学习后如果再学习新的东西,会破坏原来已经学会的东西
主要领域:
对大量数据进行分类;
学习一个复杂的非线性映射;
提出历程:
1943年,M-P模型(阈值加权和模型)
1949年,Hebb学习律(神经元之间突出联系是可变的)
1950-1968(第一高潮期),单级感知器(Perceptron),可用电子线路模拟
1969-1982(反思期),发现”异或“运算不可表示
1983-1990(第二高潮期),循环网络,设计研制Hopfield网电路,解决TSP问题,Boltzmann机,BP算法(多层网络)
1991-2006(再认识与应用研究期)
2006至今,深度学习,CNN,DBN,深度学习的循环网络
理论基础
人工神经元
具有生物神经元的六个特征
1)神经元及其联接
2)连接强度决定信号传递强弱
3)连接强度可以随训练改变
4)信号可以刺激/抑制
5)一个神经元接受的信号的累积效果决定该神经元状态
6)每个神经元可以有一个阈值
基本构成
[]:
人工神经元模拟生物神经元的一阶特性。
输入:X=(x1,x2,…,xn)
联接权(权重):W=(w1,w2,…,wn)
网络输入:net=Σxiwi
向量形式:net=XW
- 具体的
激活函数:o=f(net)
上层节点的输出和下层(隐层或输出层)节点的输入之间的函数关系,也称激励函数/活化函数
作用:使深层神经网络的表达能力更强大,而非把输入线性组合再输出
常见的有Sigmoid函数、TanH函数等
γ>0,为一常数,称为饱和值,为该神经元的最大输出。
M-P模型(也称处理单元):如上结构图
拓扑特性
连接模式
”+“:表示传送来的信号起刺激作用,用于增加神经元的活跃度
”-“:抑制作用,降低活跃度- 层级内联接:加强和完成层内神经元之间的竞争
- 循环连接:反馈信号
- 层级间联接:不同层中神经元之间的联接,用来实现层间的信号传递
网络的分层结构
- 简单单级网
输出层的第j个神经元的网络输入记为netj,netj=x1wij+x2w2j+…+xnwnj
(重点:上述为同一层的输入-输出,而激励函数是上一层的输出-下一层的输入)
即:NET=XW,O=F(NET)
- 网络的分层结构
- 单级横向反馈网
NET=XW+OV,O=F(NET)
(主要注意输出层每个神经元多了横向的联接)
- 网络的分层结构
- 多级网
最终结果:F3(F2(F1(XW(1))W(2))W(3))
网络的分层结构
- 循环网
将输入信号反馈到输出端,输入的原始信号被逐步加强、修复;
反馈信号引起网络输入的不断变化,若这种变化经过循环最后可消失,则称网络达到了平衡状态,该网络是稳定的;若不能消失,则称该网络是不稳定的
层次划分
信号只被允许从低层流到高层;
输入层:为第0层,负责接收来自网络外部的信息;
隐藏层:输入层与输出层之间,不直接接受和发送信号;
输出层:具有该网络的最大信号,输出网络计算结果
输出层的层号为该网络的层数(称为n层或n级网络);
第j-1到j层的连接矩阵称为第j层连接矩阵,输出层对应的矩阵称输出层连接矩阵;
用W(j)表示第j层矩阵