和邻居寡妇做爰免费观看_日本特黄特色大片免费视频电影_国产视频h,百合宿舍肉h文,av不卡免费看,一级片一区二区三区

提交需求
*
*

*
*
*
立即提交
點擊”立即提交”,表明我理解并同意 《美創(chuàng)科技隱私條款》

logo

    產(chǎn)品與服務
    解決方案
    技術支持
    合作發(fā)展
    關于美創(chuàng)

    申請試用
      專家觀點:從數(shù)據(jù)到“高質(zhì)量”數(shù)據(jù)集
      發(fā)布時間:2025-03-27 閱讀次數(shù): 692 次

      2024年12月,國家發(fā)改委等部門聯(lián)合印發(fā)《關于促進數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導意見》,首次提出“高質(zhì)量數(shù)據(jù)集”,支持企業(yè)開發(fā)高質(zhì)量數(shù)據(jù)集。同月,《關于促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》進一步指出加強重點行業(yè)領域數(shù)據(jù)標注,建設行業(yè)高質(zhì)量數(shù)據(jù)集。2025年2月,國家數(shù)據(jù)局在北京召開高質(zhì)量數(shù)據(jù)集建設工作啟動會,提出積極推進落實“人工智能+”行動,推動高質(zhì)量數(shù)據(jù)集建設,高效賦能行業(yè)發(fā)展。




      數(shù)據(jù)的概念


      數(shù)據(jù)(data)在廣泛意義上而言,是對事實、活動等現(xiàn)象的記錄。《辭?!罚ǖ谄甙妫?shù)據(jù)定義為“描述事物的數(shù)字、字符、圖形、聲音等的表示形式”。按照《中華人民共和國數(shù)據(jù)安全法》中給出的定義,數(shù)據(jù)是指任何以電子或者其他方式對信息的記錄。由此可見,數(shù)據(jù)本身可以有豐富的表現(xiàn)形式。


      數(shù)據(jù)一直伴隨著人類的發(fā)展而變遷。在古代,數(shù)據(jù)呈現(xiàn)出規(guī)則化匯聚的特征。例如,我國古代的黃冊(全國戶口名冊)、天文觀測記錄均以特定規(guī)則進行登記造冊,它們對人類社會和物理世界的性質(zhì)、狀態(tài)與相互關系進行記錄和計算,都是寶貴的古代數(shù)據(jù)遺產(chǎn)。計算機發(fā)明后,數(shù)據(jù)與計算機編碼產(chǎn)生重要聯(lián)系。凡可被編碼為一系列0和1組成的二進制記錄,都是計算機可處理的數(shù)據(jù)。早期計算機的采集、存儲、計算技術尚不成熟,只能有效處理行列結(jié)構明確的數(shù)據(jù)表,此時數(shù)據(jù)更多指代這類結(jié)構化數(shù)據(jù)。近十幾年來,數(shù)據(jù)存儲、傳輸和計算的性能不斷突破,數(shù)據(jù)管理、數(shù)據(jù)處理技術快速迭代,網(wǎng)頁、聲音、圖像等半結(jié)構化、非結(jié)構化數(shù)據(jù)也逐漸得到有效處理和利用。



      數(shù)據(jù)集的定義


      GB/T 35295-2017《信息技術 大數(shù)據(jù) 術語》將數(shù)據(jù)集(data set)定義是“數(shù)據(jù)記錄匯聚的數(shù)據(jù)形式。(注:它可以具有大數(shù)據(jù)的體量、速度、多樣性和易變性特征。數(shù)據(jù)集的特征表征的是數(shù)據(jù)本身或靜態(tài)數(shù)據(jù),而數(shù)據(jù)的特征,當其在網(wǎng)絡上傳輸時或暫時駐留于計算機存儲器中以備讀出或更新時,表征的是動態(tài)數(shù)據(jù)。)”


      GB/T 36344-2018《信息技術 數(shù)據(jù)質(zhì)量評價指標》?將數(shù)據(jù)集定義是具有一定主題,可以標識并可以被計算機化處理的數(shù)據(jù)集合。


      由此可以看出,數(shù)據(jù)集就是數(shù)據(jù)集合或者數(shù)據(jù)的匯聚形式。



      高質(zhì)量數(shù)據(jù)集的界定與發(fā)展


      在當今數(shù)字化時代,人工智能已成為推動各行業(yè)變革的核心力量,其背后的關鍵支撐則是高質(zhì)量的數(shù)據(jù)集。高質(zhì)量數(shù)據(jù)集不僅是AI模型訓練、推理和驗證的基礎,更是人工智能賦能行業(yè)的核心驅(qū)動力。然而,目前業(yè)界對于高質(zhì)量數(shù)據(jù)集的內(nèi)涵還并未明確。


      傳統(tǒng)的數(shù)據(jù)質(zhì)量管理聚焦在結(jié)構化數(shù)據(jù)的“六性”質(zhì)量(規(guī)范性、完整性、準確性、一致性、時效性、可訪問性),其本質(zhì)是通過ETL流程優(yōu)化實現(xiàn)單條記錄的可靠性。在人工智能快速發(fā)展的背景下,數(shù)據(jù)質(zhì)量在傳統(tǒng)“六性”的基礎上,還需進一步關注類別全面性、維度均衡性和內(nèi)容安全性等指標,以滿足人工智能模型訓練和應用的需求,推動人工智能技術的健康、可持續(xù)發(fā)展。


      根據(jù)調(diào)研,目前一些在研標準中也提到,可信數(shù)據(jù)集是來自特定和受信任來源,經(jīng)可信的數(shù)據(jù)處理過程形成的高質(zhì)量且滿足預期用途使用的數(shù)據(jù)。


      “可信”一詞近年來主要出現(xiàn)在計算機領域的“可信計算”(Trusted Computing)概念中。可信計算主要強調(diào)的是計算機系統(tǒng)和其處理過程的可預測性、可驗證性,保證全部計算過程的可測可控和不被干擾,從而保證計算結(jié)果與預期的一致性。


      因此,可信數(shù)據(jù)集不僅要求數(shù)據(jù)集是高質(zhì)量,同時更強調(diào)?數(shù)據(jù)采集、存儲、轉(zhuǎn)換生命周期過程的可信?(如合規(guī)性、一致性),從而實現(xiàn)數(shù)據(jù)來源合規(guī)、處理過程可信、內(nèi)容高質(zhì)量且安全。


      總的來說,企業(yè)在構建“高質(zhì)量”數(shù)據(jù)集時,需要關注以下內(nèi)容:


      一是從范圍上需要涵蓋結(jié)構化、半結(jié)構化和非結(jié)構化各類型數(shù)據(jù)。二是在質(zhì)量評價上需考慮規(guī)范性、準確性、完整性、一致性、時效性、全面性、維度均衡性、內(nèi)容安全性等指標。三是在建設運營中要關注數(shù)據(jù)集建設運營全生命周期的安全、隱私以及倫理合規(guī)問題。進而,打造在流程、質(zhì)量、安全、內(nèi)容上“高質(zhì)量”的數(shù)據(jù)集。



      高質(zhì)量數(shù)據(jù)集的建設


      針對高質(zhì)量數(shù)據(jù)集的建設,我們提出“盤建研管運”五步法的管理方法。

      ◇ “盤”是需求盤點、資源盤點。理清內(nèi)外部數(shù)據(jù)資源的來源、規(guī)模、質(zhì)量、類別情況,明確應用與采集的格式、質(zhì)量、內(nèi)容要求。

      ◇ “建”是規(guī)范建設、流程建設、平臺建設。提前制定數(shù)據(jù)集的質(zhì)量、安全、運管要求,標準化工作流程,定制化工具平臺。

      ◇ “研”是數(shù)據(jù)集研發(fā)。依托前序工作的需求、流程、規(guī)范等開展標準化的數(shù)據(jù)集研發(fā)工作,進行數(shù)據(jù)的清洗、標注、增強、質(zhì)量評價等操作,生產(chǎn)數(shù)據(jù)集。

      ◇ “管”是數(shù)據(jù)集管理。洞察數(shù)據(jù)集規(guī)模、分布等構成,依托可追溯的數(shù)據(jù)集管理平臺,維護數(shù)據(jù)集版本與上架資產(chǎn)。

      ◇ “運”是全鏈路運營。維護數(shù)據(jù)集評價指標,跟蹤、維護、優(yōu)化數(shù)據(jù)集的評價、使用、成本和價值。

      免費試用
      服務熱線

      馬上咨詢

      400-811-3777

      回到頂部