清華AIR團(tuán)隊(duì)揭示人類與智駕算法視覺注意力的本質(zhì)差異

來源：新京報2026-02-21 18:07:29

(資料圖片)

新京報貝殼財經(jīng)訊 2月21日，清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）發(fā)布一項(xiàng)研究顯示，以自動駕駛這一安全關(guān)鍵領(lǐng)域?yàn)檩d體，首次通過“人類眼動追蹤實(shí)驗(yàn)+算法對比驗(yàn)證”的雙軌設(shè)計，系統(tǒng)性拆解了人類與智駕算法視覺注意力的本質(zhì)差異。其核心價值在于提出人類駕駛注意力的三階段量化劃分框架，并證實(shí)智駕算法視覺理解的核心缺陷是缺乏“語義顯著性提取能力”，而融入人類檢查階段的語義注意力，能以經(jīng)濟(jì)高效的方式填補(bǔ)專業(yè)算法的“語義鴻溝”與大模型的“接地鴻溝”，無需依賴大規(guī)模預(yù)訓(xùn)練。

研究團(tuán)隊(duì)通過招募專家與新手司機(jī)完成危險檢測、可用性識別、異常檢測三類任務(wù)，結(jié)合眼動數(shù)據(jù)劃分注意力階段，再將不同階段注意力融入AxANet、UniAD等專業(yè)算法及DriveLM等視覺語言模型（VLM），最終揭示人類與智駕算法注意力的核心差異并非“空間定位”，而是“語義理解”。人類能通過自上而下的認(rèn)知賦予場景特征語義優(yōu)先級，而智駕算法難以自主習(xí)得這一能力。該發(fā)現(xiàn)為自動駕駛算法的性能提升提供了非規(guī)模化的新路徑，對資源受限的車載實(shí)時系統(tǒng)部署具有重要實(shí)踐意義。

關(guān)鍵詞：注意力算法智駕人類語義視覺本質(zhì)

責(zé)任編輯：sdnew003

返回首頁返回綜合首頁