
10 月 17 日至 19 日,由深圳技術大學主辦,深圳技術大學人工智能學院承辦,深圳市坪山區人才工作局、北京大學、中國科學院自動化研究所等協辦的第六屆機器學習與計算機應用國際學術會議(ICMLCA 2025)在深圳召開。會上,中建發展產業公司中建電商云筑 AI 團隊圍繞大語言模型(LLMs)領域核心技術痛點進行成果分享,其兩項研究成果 《Negative Example Mining-Driven DPO Data Construction: Enhancing LLM Extensibility with Knowledge Graph》與《A Graph Enhanced Memory System for Long-Turn Dialogue Question Answering》被會議正式收錄。至此,云筑全年已有5篇高質量論文被收錄,體現了學術界對云筑在模型研究與算法創新領域技術思路與實踐積累的高度認可。
這兩篇論文分別聚焦模型高質量數據標準構建、模型幻覺抑制、模型長上下文記憶增強三大關鍵方向,為 LLMs 的技術突破提供創新性解決方案。
KG-DPO:基于知識圖譜和偏好策略算法

不同于以往研究,該框架將 KG 與 DPO 融合為協同范式,通過結構化數據保障真實性,借助對比學習提升辨別能力。核心貢獻在于驗證這種協同效應:在 HotPot 和 PQA 數據集上對比語料庫與 KG 負采樣,發現 KG 驅動的挖掘通過知識錨定的混淆模擬,在領域任務中表現更優;高質量負例數量無需過多即達性能飽和,質量比數量更關鍵。研究還發現,基礎模型借 DPO 的錯誤辨別填補知識空白,指令模型則需其抑制錯誤但流暢的輸出。KG-SFT 或語料庫 - DPO 單獨使用均非最優,唯有融合的 KG-DPO 實現突破,證實結構化數據與對比學習可相互增強。KG-DPO 推動了模型后訓練,經多模型、多任務和多數據驗證,為醫療、法律、金融等需事實精準性與推理完整性的領域提供了可擴展方案。
GEM:基于圖存儲結構記憶多路檢索系統

本研究針對大語言模型在長上下文處理中普遍存在的記憶丟失問題,提出了一種基于圖結構的記憶存儲系統(GEM,即圖增強實體記憶)。不同于傳統方法多依賴檢索增強生成(RAG)技術進行外部信息檢索的局限,該系統將長上下文信息建模為圖中的節點,并利用圖中邊的關聯屬性建立信息間的語義連接,最終實現長上下文場景下關聯記憶的精準檢索。研究核心包括:構建實體關系記憶系統,在檢索過程中捕捉并利用實體級關聯以提升下游任務精度;設計基于圖的檢索策略,通過實體引導的圖遍歷減少信息冗余,同時實現目標內容的精準召回;通過多檢索與推理任務的大量實驗(含模塊性能分析和消融研究),驗證了 GEM 的有效性。

本次大會創新采用線上線下融合模式,累計呈現6場專家前沿報告、13場青年學者報告及78組海報展示,構建起涵蓋主題報告、口頭報告、海報展示與即時互動的學術生態圈。會議期間高頻次的知識碰撞與深度對話,吸引了來自30余所高校、科研院所和企業界專家學者參與學術交流。
當前,KG-DPO 與 GEM 兩項技術已落地應用于標簽抽取、投標檢查項識別等實際任務中。在提升標簽抽取精準度、保障投標檢查項識別準確性的同時,大幅降低人工重復檢測的工作量,優化了業務處理效率。
未來,云筑 AI 團隊將持續深化 KG-DPO 與 GEM 技術的研發:一方面,拓展技術在招投標內容識別、檢查項抽取等更多知識密集型領域的應用;另一方面,優化模型在復雜長上下文場景的適配能力。同時,團隊將結合實際業務反饋迭代技術,推動其與產業深度融合,打造更高效的 AI 解決方案,助力提升建筑行業智能化水平,為大語言模型的技術創新與落地提供更多實踐參考,進一步鞏固云筑在相關領域的技術與應用優勢。