4月9日發布的《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》)中,首次將數據與土地、勞動力、資本、技術等傳統要素并列為要素之一?!兑庖姟肪唧w指出,發揮行業協會商會作用,推動人工智能、可穿戴設備、車聯網、物聯網等領域數據采集標準化。
“數據采集的標準化是數據存儲、交易、加工及數據服務等一系列數據治理的前提,而且這件事只能由政府來主導。”中科院自動化研究所研究員、視語科技創始人王金橋表示,“數據的治理涉及政府機關、運營企業、人工智能公司、用戶等方方面面,要想規范交易使用,充分利用沉睡的數據資源,必須先從數據采集的源頭來做標準化和規范化?!?/span>
王金橋介紹,采集標準化的最大價值是解決數據采集重復建設的問題。交通、保險、醫療、天氣、教育等,各行各業都在生產數據,數據采集存在非常多的重復建設。比如各地有不同的采集標準,每個地方的關注點、區域特色、數據分布都不一樣,對數據的訴求不一樣,采集的數據也不一樣,這直接導致數據的不完備、噪音大,影響數據效能的釋放。
“因此,政府驅動是非常重要的。”王金橋說。比如現在出門避開擁堵靠導航軟件,但導航軟件依靠使用它的用戶的定位信息,事實上相當于采樣,結果并不可靠。去年底,交通運輸部印發通知,決定開展全國高速公路視頻聯網監測工作,充分利用新一代云計算和人工智能技術,建設科學先進、高效統一的視頻云聯網監測體系。這一監測體系將全面提升高速公路信息化、智能化水平,提高出行服務保障能力。按照通知要求,今年12月底,將完成全國高速公路視頻接入工作,建設部級視頻云平臺并全國聯網運行。“高速公路視頻上云后,全國高速公路的標準化數據都會集成到云平臺,交通部門也能像氣象部門提供天氣預報一樣提供準確的信息服務,這是充分發揮交通數據生產力的有效手段?!蓖踅饦蛘f。
由于數據治理還處在探索階段,數據采集的標準化工作也還處于起步階段。各行各業數字化程度千差萬別,很多行業還沒有實現數字化,高速公路視頻上云就相當于剛剛連入互聯網,距離真正的數據處理和服務還很遠。在國家的統一要求下,不同行業也需要適配各自業務和場景的采集標準。
“更重要的是,伴隨技術的進步,數據采集標準也會隨之變化,標準化工作需要一個長期的不斷完善的過程。”王金橋說,以人臉數據的采集為例,直播、售票、征信等不同場景對人臉數據的要求不同,各個場景需要根據應用劃分采集標準,如人證同一性認證、人員身份網絡遠程驗證、人臉門禁、人臉布控等。比如按照國家制定的標準證件照的數據采集標準——中臉部寬207±14像素,頭頂發跡距照片上邊沿7—21像素,眼睛所在位置距照片下邊沿的距離不小于207像素,按這個標準采集的證件照圖像目前已經廣泛用于機場、火車站等地的身份認證。
另外,數據采集的邊界也需要界定:什么數據能采集,什么數據不能采集;如何對隱私數據進行規避;如何正確采集數據(比如在采集人的行為數據時必須把臉部模糊);如何平衡數據的有效和去隱私?!皵祿闹匾砸呀洺浞终宫F出來,但數據治理的問題特別復雜。數據是可以被操縱和改變的,數據傳輸特別碎片化,數據交易的利益誘惑極大……數據采集是為數據共享和交易服務的,數據的標準化要為采集劃定邊界?!蓖踅饦蛘f。