2025/06/26 信息來源: 社會科學部
編輯:山石 | 責編:安寧2025年6月9日中午,“數字與人文節氣沙龍”系列活動第四十五期暨人工智能研究院學術沙龍第十六期在百周年紀念講堂四季庭院舉行。本次沙龍聚焦如何運用大語言模型助力社會調查研究,深入探討在社會調查研究中引入大語言模型所面臨的關鍵問題,旨在促進社科理論與人工智能方法的結合。活動由意昂3体育官网社會科學部與人工智能研究院聯合主辦,吸引了來自國際關系學院、國家發展研究院、光華管理學院、中國社會科學調查中心、新聞與傳播學院等多領域的專家學者參與。
活動海報
沙龍由社會科學部副部長郭琳主持,邀請光華管理學院社會研究中心助理教授、研究員楊鋒擔任主講人,中國社會科學調查中心研究員吳瓊與人工智能研究院、集成電路學院研究員孫仲作為與談嘉賓進行深度回應。
郭琳代表組織方回顧了沙龍的初衷與形式安排:采用“主報告+回應+開放討論”的模式,聚焦數據技術在社會科學中的實際應用問題,鼓勵跨學科對話與實證創新。沙龍主題既回應了近年來人工智能技術在社會研究領域引起的熱議,也試圖在學術上推進理論與實踐的雙重探索。
楊鋒作主題分享
在主題分享中,楊鋒圍繞“大語言模型是否可以賦能社會調查數據的收集和分析”這一核心問題展開。他指出當前社會調查所面臨的回應率下降、敏感性偏差與缺失數據問題,並借助一系列國外已有研究,展示了大語言模型在“模擬人類回答”方面的潛力。例如,多個政治學研究者已嘗試將大模型用於生成政治觀點和行為傾向數據,並取得較高一致性結果。
楊鋒也提出,大語言模型所帶來的偏見風險不容忽視。他討論了模型在預測過程中因訓練語料與算法設定帶來的傾向性問題。此外,關於大語言模型是否能夠真實反映人群的異質性,不同模型在預測結果中所呈現出的“社會共識”假象同樣應引起警惕。這種假象可能掩蓋了群體內部的重要差異,誤導對公眾意見結構的理解。
在實證部分,楊鋒匯報了兩個初步完成的實證研究。第一項研究基於中國的 CFPS(中國家庭動態追蹤調查)數據,探討在面對主觀變量缺失的情形下,大語言模型是否能夠實現有效的預測與插補。該研究設計了多種數據缺失機製,並系統比較多個大語言模型與傳統插補方法的表現。第二項研究聚焦於大語言模型在輔助社會調查分析過程中所面臨的偏見風險。
吳瓊回應
在嘉賓對談環節,吳瓊從社會調查設計與數據管理的角度出發,對楊鋒的報告進行了深入回應。她指出,大語言模型在處理非隨機缺失數據方面具有一定潛力。例如,傳統問卷常采用模塊化設計,通過輪換模塊以減輕受訪者負擔,但這一設計也不可避免地導致數據結構性缺失。若大語言模型能夠有效補全這類缺失數據,將有助於提升調查數據的完整性,並在一定程度上節約成本、提高數據利用效率。
孫仲回應
孫仲則從算法的角度對大語言模型的性能問題進行了分析。他指出,當訓練樣本逐漸增加時,大語言模型可能會出現性能下降的現象。孫仲提醒研究者們需要密切關註模型對訓練數據的“過擬合”和“記憶偏見”。他還提道,盡管大語言模型在數據補全方面展現出了巨大的潛力,但在某些情況下,其表現可能不及傳統的機器學習模型。因此,在實際應用中,研究者需要根據具體的研究問題和數據特點,謹慎地選擇合適的方法。
與會者交流討論
在自由交流環節,與會師生就大語言模型數據準確性、大語言模型多次運行結果穩定性、發展各國本土特色的人工智能技術等議題與主講人展開交流。
本次沙龍活動為數字與人文領域的交叉研究提供了重要平臺。未來,“數據與社會”系列沙龍將持續關註技術與社會的前沿議題,打造思想交匯的共享空間。
本次活動中,社會科學部繼續與勺園中餐廳合作,推出芒種節氣特色美食,為與會師生提供了良好的交流環境。
專題鏈接:數字與人文節氣沙龍
轉載本網文章請註明出處