归档: 2016/7

神经网络求导细节

最近终于把RNN的求导细节给弄明白了,写一篇文章来总结一下DNN,CNN以及RNN的具体求导细节。在网上搜索资料的同时,发现很多时候RNN的求导大多数给的是矢量化的形式,并不容易去理解,比如说$y$是一个标量,$y = \sum_n||y_n - t_n||^2$,通常用的error形式,对一个权重矩阵$w$求导,也应该是一个矩阵的形式。但是一旦涉及到微积分的链式法则,通常很难以去理解。比如说$$