這不是顯然的嗎?NN就是已知網絡結構(函數族形式),和海量預知采樣點,擬合出函數的最佳形態(確定參數)。
通常我們把最終模型視作對輸入數據的函數,目的是優化函數輸出。但在訓練階段,我們把待定模型看作是隊其各參數的函數,根據已知的采樣點來確定參數。
因此最簡單粗暴的想法就是尋找該模型對各參數的偏導數的零點。這就是梯度下降的目標,也是為什么大家喜歡用卷積網絡和sigmoid這類函數的原因:導數太tm好求啊。
這不是顯然的嗎?NN就是已知網絡結構(函數族形式),和海量預知采樣點,擬合出函數的最佳形態(確定參數)。
通常我們把最終模型視作對輸入數據的函數,目的是優化函數輸出。但在訓練階段,我們把待定模型看作是隊其各參數的函數,根據已知的采樣點來確定參數。
因此最簡單粗暴的想法就是尋找該模型對各參數的偏導數的零點。這就是梯度下降的目標,也是為什么大家喜歡用卷積網絡和sigmoid這類函數的原因:導數太tm好求啊。