源頭治理提升數據“免疫力”

2025-08-06 11:13:12?作者：譚敏?來源：廣州日報責任編輯：孫勁貞我來說兩句

當前，人工智能已深度融入經濟社會發展的方方面面，在深刻改變人類生產生活方式的同時，也成為關乎高質量發展和高水平安全的關鍵領域。然而，人工智能的訓練數據存在良莠不齊的問題，其中不乏虛假信息、虛構內容和偏見性觀點，造成數據源污染，給人工智能安全帶來新的挑戰。

人工智能的三大核心要素是算法、算力和數據，其中數據是訓練AI模型的基礎要素，也是AI應用的核心資源。簡單地說，人工智能是通過數據構建自己的“世界觀”和“價值觀”。數據質量直接決定了人工智能系統的“認知基線”。當訓練數據被虛假信息、偏見觀點和虛構內容系統性污染時，AI獲得的不是客觀世界的鏡像，而是一幅扭曲變形的認知地圖。那么，人類在與這樣的AI互動時，必然獲得的也是變形失真的信息。有研究顯示，當訓練數據集中僅有0.01％的虛假文本時，模型輸出的有害內容會增加11.2％；即使是0.001％的虛假文本，其有害輸出也會相應上升7.2％。如此微量的數據污染就能引發輸出端的指數級危害增長，數據污染的破壞力讓人不寒而栗?？紤]我們當下的AI應用場景，從醫療診斷到司法判決，從金融風控到自動駕駛，AI應用場景不斷擴展，意味著數據污染的風險影響范圍也在同步擴大，其現實風險令人警醒。

數據污染危機提醒我們，科技從來都是雙刃劍，任何對技術盲目樂觀的態度都是極度危險的。人工智能一路狂奔，業界熱衷于談論算法突破和算力競賽，卻對訓練數據的源頭治理缺乏足夠重視，將各類數據視為無差別“養料”，忽視其可靠性與安全性。

應對人工智能數據污染需要構建多層次的防御體系。源頭治理是關鍵，正如環境治理需要從源頭控制污染一樣，人工智能安全必須從數據入口筑起第一道防線。在技術層面，必須建立數據溯源驗證機制，大力發展虛假信息檢測和偏見識別等前沿技術，讓數據擁有強大的“免疫系統”。加強法治監管，歐盟《人工智能法案》明確高風險AI系統必須使用高質量、有代表性且無歧視的數據集，這種立法思路值得借鑒。公眾則需提升數字素養，形成守護數據安全的社會共識。如此，我們才能確保人工智能這把雙刃劍始終為人類福祉服務。

相關閱讀: