疫情期間大數據監控的健康寶是什么技術實現的?
一個很好的問題,本人正好對健康碼進行了一次深入研究,現在試著回答一下你的問題。
健康寶是防疫健康碼的一種,是適用于北京地區的健康碼,其本質上是一種二維碼。健康寶看似簡單,其實背后的實現原理并不簡單。在我看來,健康寶其實是一款大數據產品。下面,從數據產品的角度解讀一下健康寶的實現。
一、從數據產品角度定義健康寶
健康寶是指適用于北京地區的,融合了個人申報信息、出行數據、接觸信息、就診數據等基礎上,通過身份識別、數據比對、規則判別等手段,實現個人疫情風險等級的標識和可視化展現的“電子健康證明”二維碼。
二、健康寶的技術實現
因為健康寶是健康碼的一種,所以,下面還是以健康碼的實現過程的分析來代替對健康寶的實現過程的解剖。
1、健康碼到底用到了哪些數據?
根據相關資料的匯總,筆者的得到了健康碼產品背后的所需要的數據(如下表)。當然,實際的健康碼生產過程中有些數據可能是沒有用到的,有些數據可能是缺失的,但這里面比較關鍵的是用戶填報的信息、位置軌跡和交通出行信息、醫學檢測數據等。
由此可見,健康碼的生成實際上依賴的數據源理論上有很多,比如:電信運營商、衛健委、社區、海關、采集點、用戶自身等等。這從側面說明,健康碼在數據整合上有一定的難度,同時也證明多源數據跨界融合的重要性。
2、健康碼的工作原理
假定A與B歸屬同一家庭,第一天A外出乘坐地鐵上班,在地鐵中與C和D有近距離接觸,到了工作單位后A在于同事E和F也有近距離接觸,而E和F跟G有近距離接觸,當天下班后A回到家中。第二天,A出現發熱癥狀,體溫高于37.3°,于是去醫院進行核酸檢測,檢測結果顯示為陽性,初步判定A為疑似病例,健康碼顏色有綠色變為紅色,立即采取隔離措施,并發出危險信號。對密切接觸者B、C、D、E、F的健康碼顏色標識為紅色,G的健康碼顏色標識為黃色。
3、風險等級判別與健康碼顏色的生成
個人防疫風險等級是根據個人錄入信息與后臺大數據的綜合比對和研判得出的,這個綜合研判的標準就是健康碼規則引擎。以某省健康碼為例,其健康風險等級的標準如下:
(1)紅碼標準
①確診病例、疑似病例、無癥狀感染者以及實施居家 (集中)隔離醫學觀察未滿14天的治愈出院確診病人和無癥狀感染者;
②確診病例、疑似病例、無癥狀感染者的密切接觸者;
③來自疫情高風險地區的人員;
④正在實施集中隔離醫學觀察的人員;
⑤其他需要納入紅碼管理的人員。
以上5條為“或”的關系,只要滿足一條,其健康碼就被標識為紅色。
(2)黃碼標準
①體溫37. 3°C及以上或出現呼吸系統癥狀(干咳、咳 痰、鼻塞、咽痛、氣促、呼吸困難)、身體不適(乏力、 肌肉酸痛、頭痛、關節酸痛)、消化道癥狀(腹痛、腹瀉、 惡心、嘔吐)、結膜出血等臨床表現之一的人員;
②來自疫情中風險地區的人員;
③14天內與確診患者、疑似患者和無癥狀感染者可能存在密切接觸,如搭乘同一公共交通工具、居住在同一樓棟單元等情況;
④其他需要納入黃碼管理的人員。
以上4條為“或”的關系,只要滿足一條,其健康碼就被標識為黃色。
(3)綠碼標準
①除紅碼、黃碼標準以外的其他人員;
②列入疫情防控“白名單"人員。
以上2條為“或”的關系,只要滿足一條,其健康碼就被標識為綠色。
個人健康碼的顏色是根據個人信息與健康風險等級的標準進行比對生成的,其大致過程如下:
4、防疫健康信息服務平臺
為保障健康碼產品的正常運行和服務的常態化,需建立配套的一體化平臺,也就是防疫健康信息服務平臺,該平臺的大致框架如下圖所示:
5、健康碼背后的關鍵技術
(1)大數據技術:健康碼實際上是需要進行動態數據的比對和監控的,健康碼的實現依賴于規則引擎的運行計算,要支持億級用戶的大規模實時動態查詢,離不開大數據技術的支持。從存儲角度來看,利用大數據技術的海量存儲功能,接近PB級別數據存儲和擴容的能力,才能支持健康碼億級用戶的數據存儲;從計算角度來看,這里最重要的就是ETL和流處理技術,不管是采用Spark架構的內存計算還是利用Flink的流處理模式,其背后少不了需要集合上千臺服務器的計算能力,所以阿里云或騰訊云的強大算力在背后發揮了基礎性的支撐作用。
(2)架構設計:騰訊的健康碼小程序在今年2月份的覆蓋用戶就超過了7億,要承載超過5000萬日活躍用戶的查詢與上報等需求,對平臺的架構提出了很高的要求。因此,平臺的架構設計必須滿足三個原則:①高性能、高可用;②安全、穩定③可擴展、易維護。以騰訊為例,其采用的架構如下:
(3)二維碼生成:
健康碼本質上是一個二維碼,日常生活中最常見二維碼是QR碼(Quick Response Code)。QR碼的編碼遵循國際標準ISO/IEC 18004,國內則遵循國家標準GB/T 18284。通常二維碼的編碼過程是這樣的:對于給定的數據,首先需要通過標準定義的轉換方法將其轉換成二進制0和1表示,再將0和1的編碼按規則對應到二維碼圖案中,0對應白色方塊,1對應黑色方塊。除了數據信息外,一個二維碼中還包含定位圖形、位置探測圖形(尋象圖形)、糾錯碼、格式信息等。
健康碼從分類來看是一種動態碼,其生成過程為:使用網頁鏈接方式時,個人身份信息和健康信息展示在網頁上,網頁上的數據來源于底層數據庫,網頁鏈接被編碼在二維碼中。網頁鏈接可以進行加密以限制只有特定掃碼設備可以訪問該網頁,網頁被訪問時也可以驗證訪問者身份和授權情況,以保護用戶的個人敏感信息只有在授權后才可被訪問。網頁內容可以隨著用戶健康狀態的變化而更新,不再使用時也可以直接刪除。同時,根據網頁被訪問的情況,也便于記錄用戶被掃碼的時間、地點、次數,以滿足后續追溯的需要,省去了用戶反復填寫、登記的麻煩。
(4)二維碼查驗:
二維碼是如何實現“無接觸式”查驗的?以支付寶為例,有兩種實現方式:
① “同步+異步”相結合:即不僅市民端可以通過支付寶來修正自己的健康狀況,實現碼的即時更新,碼的后端也會輪詢底層源數據庫,有更新就會觸發碼的再次生成邏輯
② “實時+離線”相結合:即對于防控系統中實時變化的名單,通過管道技術做到實時更新;針對支撐算法的接口數據,做到通過批處理日更新,確保數據服務的時效性。
(5)數據安全與隱私保護:
健康碼為廣大用戶帶來了便利,同時也引發了用戶對于隱私保護的擔憂。通過分析發現,在系統開發初期、開發過程中、系統運行過程中和數據傳輸過程中都可能存在數據泄露的風險,因此需要加大數據安全的防護力度。
在數據安全和隱私保護方面,騰訊和阿里都注重遵守《中華人民共和國網絡安全法》等,滿足合規性要求。對于敏感信息在使用時進行了數據脫敏,重要的數據加密存儲使用,核心數據使用時增加了水印,對數據庫采取了安全防護和審計措施,運維過程中則采用堡壘機保障運維俺去,同時還對重要數據進行了容災備份。
另外,在健康碼背后兩家公司應該還運用了區塊鏈技術。通過數字身份合約和數據存證服務,有效保障“身份健康碼”及人員數據安全和授權使用。在數據應用過程中,還通過依托區塊鏈技術,利用可信數據源管理機制確保數據來源安全,利用數字身份鎖定數據責任主體,以區塊鏈存證溯源確保數據不被篡改和偽造,利用數據網關對數據訪問進行認證、授權和審計。
以上就是對健康寶的技術實現的解讀,希望我的回到能幫到你。
我是數據價值發現者,歡迎關注我的WX公眾號:大數據產品設計與運營。