少妇人妻偷人精品一区二区,国产伦精品一区二区三区妓女,狼牙套加粗震动入珠套h,被狼交的女人(h)

中國金屬材料流通協會,歡迎您!

English服務熱線:010-59231580

搜索

中國信通院李蓀等:從“經驗驅動”向“標準驅動”,推動人工智能高質量數據集建設

  隨著大模型技術的迅猛發展,數據集作為人工智能核心三要素之一,在算法趨同、算力普惠的競爭環境中正在構建難以復制的差異化壁壘。高質量數據集的建設是提升AI模型性能的關鍵,也是推動“人工智能+”行動落地的保障,標志著人工智能發展正在進入“數據驅動”新階段。


一、高質量數據集成為人工智能應用升級的核心要素

1. “人工智能+數據要素”協同推動高質量數據集建設

  2025年2月,高質量數據集建設工作啟動會在京召開,27個國家部委代表參加,會議落實“人工智能+”行動,推動高質量數據集建設,高效賦能行業發展。北京、遼寧、河北、貴州等地積極推動人工智能高質量數據集建設,開放重點行業領域數據集,打造“AI數據工廠”,為高質量數據集的建設和應用提供了有力的政策保障。


2. 大模型技術突破性進展重構了數據工程范式

  DeepSeek通過自動化推理和數據生成技術,實現數據標注方式的智能化升級;采用數據蒸餾技術提煉低質數據有效信息,結合自動化篩選與人類專家反饋機制,形成“機器預處理+人工校準”的雙層質檢流程;運用強化學習框架,聚焦推理能力培養,構建了包含60萬條推理型樣本與20萬條非推理型樣本的訓練集,優化模型架構。


3. 數據已成為人工智能行業應用落地的核心護城河

  在算法趨同、算力普惠的背景下,高質量、高價值密度的數據資源構建起企業差異化競爭力。垂直領域的數據壁壘通過業務場景閉環持續積累,形成模型性能的代際優勢。“數據-算法-應用”相互強化的生態閉環的形成,將確立難以復制的戰略壁壘。


二、高質量數據集建設“三大難點”

  當前,高質量數據集建設正處于探索階段,主要面臨目標定位模糊化、實施路徑碎片化與技術底座薄弱化三重挑戰。


1. 目標定位模糊化

  數據集建設常陷入“為數據而數據”的誤區,智能場景需求與數據集建設目標脫節,企業未將數據工程目標與核心業務指標深度綁定,導致數據價值難以轉化為模型性能提升。


2. 實施路徑碎片化

  從數據采集到模型訓練的全鏈路缺乏系統性規劃和設計,無法形成體系化數據集構建和維護機制,造成多源異構數據標準難統一、跨部門跨層級難協作,致使清洗、標注等數據處理成本激增。


3. 技術底座薄弱化

  現有數據處理技術難以應對復雜人工智能場景需求,多模態數據處理能力不足,制約模型迭代與應用規模化。同時,缺乏適配行業特性的工具鏈,自動化程度低,人力依賴嚴重,工程落地效率受阻,行業特性適配工具鏈缺失。


三、搭建人工智能數據工程能力“五大核心要素”

1. 組織管理

  全方位解決人工智能數據工程項目管理效率、團隊協同能力以及技術應用標準化等問題。


  一是項目管理。旨在通過科學規劃、精細執行與靈活調整,確保高質量數據集項目按時交付,成本可控。


  二是組織建設。旨在設計并實施一個高效、協同的組織結構,確保從數據采集到模型應用的有效管理和支持。


  三是人才管理。旨在建設一支跨學科、跨專業、跨領域的交叉復合型的大模型數據工程人才團隊。


  四是標準應用。旨在圍繞大模型數據技術、平臺、應用、管理、安全等方面,制定數據服務標準和操作規范。


2. 開發維護

  人工智能數據集構建包括數據設計、數據采集匯聚、數據預處理、數據標注、數據質檢等共性關鍵技術和環節。


  一是共性人工智能數據工程技術工具,構建標準化底層能力。數據設計規劃階段,依據需求形成數據集設計方案和知識索引體系,梳理內外部數據資源,形成模型數據資源地圖;數據采集匯聚階段,構建多源異構數據連接器,通過元數據管理實現數據血緣追蹤。預處理與標注階段,研發自動化工具鏈,例如基于規則引擎的異常值清洗模塊、弱監督標注工具;質量評估階段,建立“模型-數據”質量反饋評估能力,聯動修復工具實現閉環優化。


  二是定制人工智能數據工程技術方案,面向應用的深度適配。預訓練階段通過定向采集領域知識,結合數據增強技術擴充樣本多樣性,消除訓練數據性別、地域等潛在偏見。指令微調階段開發任務導向的數據構造工具,例如將用戶問答數據轉化為結構化思維鏈數據集。反饋對齊階段需搭建人類反饋閉環系統,設計多維度評價指標,利用偏好學習模型對齊人工評價與模型輸出。此外,還需針對行業特性定制方案,確保數據工程與業務目標深度耦合。


3. 質量控制

  數據質量直接決定大模型決策性能,需從評估準則、技術工具與流程管控三方面系統性突破。


  一是評估準則層面,需建立多維度的量化標準。除傳統數據質量指標外,需引入以模型訓練為目標的質量評估。中國信通院建立“可信AI”人工智能數據集質量評估體系(ADAQ),依據行業標準《面向人工智能的數據集質量通用評估方法 總體要求》,涵蓋數據集完整性、規范性、準確性、及時性、一致性等12個一級指標和36個二級指標。


  二是技術工具層面,需融合自動化與智能化手段。ADAQ體系自建人工智能數據集質量評估工具平臺,按照“規則檢測+人工抽樣+模型效果”實現數據集質量評估項目執行。


  三是全流程監控層面,需貫穿數據生命周期。從采集階段元數據追蹤,到預處理環節異常值實時清洗,再到模型訓練質量反饋閉環。ADAQ體系與“方升”大模型基準測試體系形成協同,通過對比模型輸出與訓練數據集,反向定位低質數據區間并提出優化機制。


4. 資源運營

  構建“資源管理、開放共享、流通交易”三位一體機制,破解數據資源“存不好、管不住、用不活”的難題。


  一是資源管理層面,需建立覆蓋數據全生命周期的管理框架。以“資源目錄”為索引,構建高質量數據集分類分級體系。采用模型專家和業務專家聯合的數據治理機制,按照模型需求梳理專業數據加工和標注策略。


  二是開放共享層面,需考慮數據集和模型應用場景雙重要素。完整呈現采集來源、環境參數、結構規模、質量指標、隱私策略。明確開放時限、應用范圍限制及版權協議,平衡開放力度與風險管控。制定開放許可協議,規范數據供需方權責與使用方式。


  三是流通交易層面,符合現有交易流通機制,鼓勵模型數據生態合作。明晰權屬,構建登記追溯體系,統一交易標準與合同范本,保障交易合規透明。鼓勵數據方和模型方合作共建,形成資源融合推動產品和應用創新,建立共享聯盟與合作框架,形成協同共進的流通生態。


5. 合規可信

  數據合規可信是大模型可信的基石,需從數據合規與數據可信雙向發力,確保數據應用合法合規、版權清晰、質量可靠、效果可溯。


  一是數據合規以安全性、法律遵循和版權規范為核心,覆蓋多重維度。數據需嚴格符合《中華人民共和國網絡安全法》《中華人民共和國個人信息保護法》《生成式人工智能服務管理暫行辦法》等相關法律法規。明確數據采集、生成、加工過程中的版權歸屬,避免權屬糾紛,規范數據使用與分發的版權授權,確保數據來源合法,使用范圍符合授權約定。


  二是數據可信圍繞來源、治理、結果、效果構建質量閉環。來源可信強調真實性、準確性、合法性,驗證數據采集過程的客觀性。治理過程可信要求方案與流程透明可解釋,治理規則清晰留痕,操作過程可追溯。結果可信要求數據分布合理,降低偏見樣本率、毒化樣本率,提升邊緣案例覆蓋度與標注準確性,避免因數據偏倚導致模型決策偏差。效果可通過模型訓練效果驗證價值,對比治理前后模型的準確率、泛化能力等表現,以效果反推數據治理的有效性。


  人工智能邁向“數據驅動”的關鍵階段,人工智能數據工程能力建設也將從“經驗驅動”向“標準驅動”的深刻變革。高質量數據集不僅是模型性能提升的核心載體,更是激活數據要素價值、構建智能生態的戰略基石。



作者簡介

李蓀,中國信息通信研究院人工智能研究所平臺與工程化部副主任,高級工程師。長期從事人工智能技術和產業相關研究,主要研究方向為人工智能數據、大模型、語音等方向,參與多項人工智能標準制定工作和多篇人工智能相關研究報告編制工作。


樊威,中國信息通信研究院人工智能研究所高級工程師。長期從事人工智能技術和產業相關研究,主要研究方向為人工智能高質量數據集以及數據標注相關政策、標準、產業研究,聚焦人工智能數據治理等領域方向,開展多項部委政策文件起草支撐工作,完成多項人工智能領域報告撰寫。


曹峰,中國信息通信研究院人工智能研究所平臺與工程化部主任,高級工程師。中國通信標準化協會TC1WG1(互聯網應用總體及人工智能工作組)組長,人工智能關鍵技術和應用評測工業和信息化部重點實驗室副主任。目前主要牽頭可信AI人工智能評測標準體系和能力建設,牽頭工程化能力等相關評估規范制定與評測等。



返回列表