2023/03/02

合成數據潛力雄厚 - 思考香港

網上版請按此

合成數據潛力雄厚

隨着很多地方陸續收緊保護私隱政策,人工合成數據(Synthetic Data)的應用便日漸增加。

有別於真實數據可能無法反映實況,合成版本則可減少偏差。合成數據可就罕見情況提供更多樣的數據,彌補難以從現實獲得這些資訊的問題。加上,其靈活性高,可以是文本、媒體(片段、圖像、聲音)和列表,並能根據真實資料的含量,大致分為三類:一)真假各半,二)模擬真實並加以改動,三)完全虛構。

有估計合成數據的成本僅為真實數據的1%,所以吸引不少企業參與,從銀行、醫藥到無人駕駛等多個行業都有使用。例如摩根大通除了用合成數據來反洗黑錢外,也以此開發創新產品和服務,尤其真實的歷史數據未必可滿足需要,合成數據便大派用場。

瑞士藥廠羅氏(Roche)則與初創合作,在臨床研究中使用合成醫學數據,代替患者數據,以提高分析能力。德國的夏里特醫學院醫學人工智能實驗室(CLAIM)研究中風,指每個患者的大腦結構都有其獨特之處,匿名化圖像意義不大,因此致力開發合成數據。

過去兩年來,Alphabet旗下的自動駕駛公司Waymo團隊一直以合成數據,生成逼真的駕駛數據集,包括繁忙的城市街道、高速多車的道路和混亂的停車場,或者通過調節迎面而至的車輛速度,來衡量Waymo的反應。

不過,合成數據較適合用於相對直接的問題,如欺詐檢測或信用評分,一旦遇上複雜多變的情況,它就應付不來。在需要精確真實的數據作規劃時,合成數據也可能礙事。美國每年一度向1%的人口發出社區調查(ACS),以研究該國在教育、健康、收入、人口統計和地區之間的關係,當局打算把實際數據換成合成版本,便被批評難以為貧困小區分配本來有限的資源。

畢竟,合成數據是個發展潛力雄厚的新興產業,相信仍有待各界發揮創意加以開拓。

 

 

鄧淑明博士
香港大學工程學院計算機科學系、社會科學學院地理系及建築學院客席教授