永发信息网

为什么 LSTM 在参数初始化时要使用 SVD 方法使参数正交

答案:1  悬赏:80  手机版
解决时间 2021-11-08 02:11
为什么 LSTM 在参数初始化时要使用 SVD 方法使参数正交
最佳答案
首先,除了 orthogonal initialization 和 uniform initialization,现在常用的还有 Gaussian initialization。不常用的还有 identity initialization 和现在“已经被时代抛弃”的 pretraining with autoencoder。这些方法在不同的场景下都被人选择了。个人感觉,比较复杂的 LSTM 用 orthogonal initialization 的人比较多,而在 research paper 讨论一个小 task 时,我看到的大部分还是说用 uniform/Gaussian。这里可能的直观的原因是后者的 layer 和 magnitude 比较少/小。

说到 layer 比较少,其实我是想说,orthogonal initialization,个人认为对于 LSTM (deep, high-dimensitional, non-convex)比较有效的原因是,(1)可以很方便地减缓 gradient vanishing/exploding problem 和 activation functions 的 saturation。因为 orthogonal matrix 的所有 vectors 都是 orthonormal 的,也就是不仅 orthogonal,还 magnitude 为 1. 这样,在计算时候,乘上这个 matrix,就可以修正 vanishing 也可以重置 saturation。(2)这个问题应该是和 saddle point 有关系,复杂的 LSTM 受 saddle point structures 带来的各种问题更严重,而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之间的依赖,消除 non-global minima。(3)当然还有这几种 initialization 都用来破坏 symmetry。

上面这是可被证实的,下面来点个人的猜测:这和 weight variation 也有关系。

综上,有些人觉得这几种方法没区别,有人觉得有,完全是 case-by-case。我个人在实践过程中,即使是小网络,也觉得有区别。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
驾校报名(徐州铜山县)地址有知道的么?有点事
物理学中,秒到底能不能用大写的S来表示?
从水清路黎安路到上海动物园
刘语熙毒奶 刘语熙:英格兰没什么悬念 这口毒
用过一次的水稻育苗苗盘用什么杀菌
请问现在广州到惠州坐大巴要多长时间,在哪个
牛街邮政支局地址在什么地方,想过去办事
苹果id号大全谁有借我用下
以泉州历史为主题写一篇小论文(1000字如泉州
云南武定县白路邮政所地址有知道的么?有点事
作文半命题作文,第一次…… 求别出心裁的题
红楼梦中秦钟的死因是什么
霞浦动车站有公交车到汽车北站吗
海口公租房一个月多少钱?
24岁之前你们都在做什么 受过什么挫折 经历过
推荐资讯
电影《漫漫自由路》500字观后感
椰奶小圆子的做法步骤图,椰奶小圆子怎么做
有没有初中英语单词app有沪教版课本
图解黄景瑜的那话儿究竟有多大
阅读。  有一天,他看见叶子上爬着一些蚜虫
火车票4车6号在车坐什么位子t8
陈艺凌这名字好不好
已知弧长7.5米,弦长7.1米,高1.04米,求面积
求从很久以前就喜欢你了的本子
咸阳市吉祥汽车驾驶培训学校地址在哪,我要去
女人朋友圈封面为啥频繁换图片还是带文字的,
战长沙毛毛是谁的孩子
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?