谷歌公司的科學家們今年推出了一種新的計算機視覺方法,用于實現手部感知。作為幕后推手,機器學習技術為提供了強大助力。根據介紹,該方案能夠在實機實驗中僅憑一幀圖像識別出一只手(或者多只手)上的21個3D點位。與目前市面的手勢識別技術相比,谷歌的全新技術不需要依賴臺式機來計算,只要在手機上就能進行實時追蹤,并且還能同時追蹤多只手,可識別遮擋。
早在今年6月,谷歌就在2019計算機視覺與模式識別大會上公布了此項技術的預覽版本。2月之后,谷歌于美國時間8月20日正式宣布將該技術集成于MediaPipe當中。MediaPipe是一套開源跨平臺框架,用于構建多模應用機器學習流水線,可以處理不同模態(例如視頻與音頻)中的感知數據。該項目的源代碼以及端到端使用場景目前都已經在GitHub上全面公開。
研究工程師Valentin Bazarevsky和Fan Zhang在博文他們的當中寫道:“感知手部形狀與運動姿態的能力,有望成為改善各類技術表現及平臺用戶體驗的重要助力。我們希望將這種手部感知功能交付至更為廣泛的研究與開發社區處,利用大家的力量共同促進創新用例的出現,刺激新的應用方式并開拓出前所未有的研究途徑。”
據了解,谷歌的這一技術包含三套串聯工作的AI模型:一個手掌探測模型(BlazePalm)用于分析框體并返回手部動作邊框;一個手部標記模型(Landmark),用于查看由手掌探測器定義的裁剪后圖像區域,并返回3D位點;一個手勢識別模型,用于將之前計算得出的位點歸類為一組手勢。
BlazePalm:手部識別絕不像聽起來那么簡單。GlazePalm必須能夠解決手部遮擋這一現實難題。為此,谷歌團隊訓練出一款手掌探測器BlazePalm——注意,是手掌而不是手部。他們認為,對拳頭這類物體進行邊界框描繪,在難度上要比跟蹤手指低得多。具體地,BlazePalm可以識別多種不同手掌大小,具備較大的縮放范圍,還能識別手部遮擋,能通過識別手臂、軀干或個人特征等信息準確定位手部。除此之外,這種方式還有另一大優勢,就是能夠很好地兼容握手等特殊場景,利用忽略其它寬高比條件的方形邊框模擬手掌,從而將所需的3D點數縮減至以往的三分之一到五分之一。據統計,經過訓練之后,BlazePalm識別手掌的準確率可以達到95.7%。
Landmark:在手掌檢測之后,手部標記模型開始接管,負責在檢測到的手部區域之內建立21個由手到肘的3D定位坐標。在訓練當中,模型要求研究人員手動注釋多達3萬份真實場景下的圖像,并立足多種背景對相應坐標進行渲染和映射,最終創建出高質量的合成手部模型。據統計,在經過訓練后,算法的平均回歸誤差可降低到13.4%。
手勢識別模型:流水線上的最后一步是手勢識別,該模型利用關節旋轉角度來確定每根手指的狀態(如彎曲或伸直),并將手指狀態集合與預定義的手勢映射起來,進而預測基礎的靜態手勢。Bazarevsky和Zhang介紹稱,該模型能夠識別來自多種文化(例如美國、歐洲與中國)的算數手勢,以及握拳、“OK”、“搖滾”、“蜘蛛俠”等常見手勢。
除此之外,這些模型也可以執行對應的單獨任務,例如利用顯卡進行圖像裁剪與渲染,從而節約計算資源;并且,手掌探測模型只有在必要時才運行——因為在大多數時段內,后續視頻幀內的手部位置只憑計算出的手部關鍵點即可推理得出,不再需要手掌探測器的參與。也就是說,只有當推理置信度低于某個閾值時,手部檢測模型才會重新介入。