第一個問題,測試集的歸一化的均值和標(biāo)準(zhǔn)偏差應(yīng)該來源于訓(xùn)練集。如果你熟悉Python的sklearn的話,你就應(yīng)該知道應(yīng)該先對訓(xùn)練集數(shù)據(jù)fit,得到包含均值和標(biāo)準(zhǔn)偏差的scaler,然后再分別對訓(xùn)練集和驗證集transform。這個問題其實很好,很多人不注意,最容易犯的錯誤就是先歸一化,再劃分訓(xùn)練測試集。
第二個問題,是均值方差歸一化,最大最小歸一化等不同歸一化的選擇問題。歸一化的目的無非調(diào)整各個字段之間的數(shù)量級差異。均值方差歸一化可能更適合你不知道數(shù)據(jù)的邊界在哪里,最大最小歸一化相當(dāng)于整合到01之間,這相當(dāng)于你是知道這個字段的邊界在哪里。所以我個人更傾向于均值方差歸一化。這個問題我只是經(jīng)驗之談,不一定對。