《自然·計算科學》18日發表的一項研究描述了一個機器學習方法,該方法能從不同方面準確預測人類生活,包括早死可能性和個性的細微差異。該模型或能提供對人類行為的量化認知。
社會科學家對人類生活是否能被預測的問題看法不一。雖然人們對起到重要作用的社會人口學因素已有充分了解,但卻一直無法對生命結局進行準確預測。
利用丹麥國家登記處約600萬人的教育、健康、收入、職業和其他生活事件數據,丹麥技術大學研究團隊設計了一個機器學習方法,以構建個體的人類生活軌跡。團隊通過調整語言處理技術,用類似模型中語言的方式表達人類生活。這種方法能以類似語言模型捕捉詞語間復雜關系的方式生成一個生活事件的術語表。他們提出的模型名為“life2vec”,能確定健康相關診斷、居住地、收入水平等概念之間的復雜關系,并用一個壓縮向量編碼個人生活,以此作為預測生活結局的基礎。
研究團隊證明,該模型可預測早死率,即年齡組在35歲至65歲的個體自2016年1月1日起存活4年的概率。另外,其捕捉細微個性差異的能力超過了當下先進的模型和基線標準,表現至少提升11%。
研究結果表明,通過表征社會結局和健康結局之間的復雜關聯,準確預測生活結局也許是可以做到的。但團隊也強調,他們的研究只是對可能性的探索,而且只應在確保個人權利受到保護的監管下才可用于現實世界。