從產品角度,中文還有很長的發展距離。作為微信讀書的重度使用者,多音字的誤讀,而且長期缺少改進,令人苦惱。
錯誤持續更新中(第一版回答只包括前四個),這些錯誤本身就很具啟發性:
1)速率(shuai4)
2)重(zhong4)寫協議
3)討價還(hai2)價
4)便(bian4)宜
5)得(dei3)到
6)長(zhang3)期
7)目的(de)
8)剝(bao1)削(xiao1)
9)調(diao4)節/強調(tiao2)(“調”的錯誤很有趣,兩個音都出現過)
10)目的(de)
11)假(jia4)設
12)沒(mei2)收
13)銀行(xing2)
14)要(yao4)求
15)任(ren2)何
16)發人深省(sheng3)
所以不得不推測,騰訊這樣頭部企業所使用的系統,也是基于簡單的文字和讀音一一對應規則來設計的——對中文多音字的處理缺失。這個多音字的問題,在我使用微信讀書將近一年的過程中,持續穩定出現,得不到升級。
這不是自動生成的語音是否自然流暢,接近人類朗讀的苛刻標準,而是是否能夠達到不影響語義理解的正確程度的基本要求。
解決方案也不難,
1)技術方案:使用人工朗讀語料中的詞匯進行修正,而不是執著于單字;
2)眾包方案:在應用程序中,通過獎勵,激勵用戶對錯誤進行標記反饋;
這么初級的解決方案,鵝廠這樣世界級的企業都無法開展,大概這個方向還是個邊緣的,缺少產品經理和研發經費的冷門領域吧。
長得像就叫不對,實在算不上高水平。