北京人工智能數(shù)據(jù)運營平臺發(fā)布 |
|||
來源: 海淀報 發(fā)布時間: 2024年06月17日 | |||
北京智源大會/供圖 6月14日,AI行業(yè)頂級盛會2024北京智源大會正式拉開帷幕。作為大會的重要組成部分,,智源大會“人工智能+數(shù)據(jù)新基建”論壇同步召開,。大會現(xiàn)場發(fā)布了“北京人工智能數(shù)據(jù)運營平臺”(包括平臺上線、重磅數(shù)據(jù)集開源和數(shù)據(jù)工具FlagData3.0),,并啟動了“行業(yè)數(shù)據(jù)集—場景應(yīng)用創(chuàng)新計劃”,,為千行百業(yè)大模型落地構(gòu)筑重要的數(shù)據(jù)基礎(chǔ)。 “北京人工智能數(shù)據(jù)運營平臺”是在國家發(fā)展改革委,、國家數(shù)據(jù)局指導(dǎo)下,,由市發(fā)展改革委主導(dǎo),在市委網(wǎng)信辦,、市科委,、市經(jīng)信局、海淀區(qū)政府,、中國網(wǎng)絡(luò)空間安全協(xié)會人工智能安全治理專委會等單位支持下,,由智源研究院牽頭與京能數(shù)產(chǎn)等單位共建推動成立開放型數(shù)據(jù)運營平臺。 平臺在實現(xiàn)數(shù)據(jù)的匯聚管理,、處理與加工等功能基礎(chǔ)上,,能夠提供多種模態(tài)的數(shù)據(jù)標(biāo)注功能,支持多種數(shù)據(jù)匯聚和使用形式,。目前平臺已匯聚超過700萬億字節(jié)的通用數(shù)據(jù)集和4.33萬億字節(jié)的行業(yè)數(shù)據(jù)集,,未來還將不斷擴(kuò)充數(shù)據(jù)規(guī)模,為大模型行業(yè)發(fā)展提供堅實的數(shù)據(jù)支撐,。 “這次開源的行業(yè)數(shù)據(jù)集,,幾乎每一項都遠(yuǎn)超全球已經(jīng)開源的該行業(yè)數(shù)據(jù)集總和,是全球最大的多行業(yè)中英雙語數(shù)據(jù)集,?!敝窃囱芯吭焊痹洪L兼總工程師林詠華說,目前數(shù)據(jù)集包含醫(yī)療,、教育,、法律、新聞等18類行業(yè)數(shù)據(jù),,未來將進(jìn)一步擴(kuò)展到30類左右,。 目前,數(shù)據(jù)運營平臺支持開源開放,、積分共享,、數(shù)算一體3種數(shù)據(jù)運營模式,。“開源開放”模式允許用戶在遵守使用協(xié)議的前提下自由下載使用,;“積分共享”模式面向數(shù)據(jù)工作組內(nèi)的成員,,根據(jù)數(shù)據(jù)貢獻(xiàn)實行積分制,即成員單位貢獻(xiàn)數(shù)據(jù),,按照計分標(biāo)準(zhǔn)獲取相應(yīng)積分,,同時獲得共享數(shù)據(jù)的權(quán)益;“數(shù)算一體”模式針對高價值數(shù)據(jù),,僅在平臺上進(jìn)行數(shù)據(jù)加工,、訓(xùn)練使用,保證數(shù)據(jù)不出安全域,。 據(jù)介紹,,依托數(shù)據(jù)運營平臺,海淀區(qū)會同智源研究院等單位積極推動政務(wù),、社會與企業(yè)數(shù)據(jù)開放共享,,打破數(shù)據(jù)孤島。同時探索建設(shè)北京數(shù)據(jù)基礎(chǔ)制度先行區(qū),,統(tǒng)籌布局算力與數(shù)據(jù)存儲基礎(chǔ)設(shè)施,,為數(shù)據(jù)資源創(chuàng)新應(yīng)用提供技術(shù)與制度保障。 未來,,海淀區(qū)將以加速構(gòu)建具有全球影響力的人工智能創(chuàng)新策源地和產(chǎn)業(yè)高地為目標(biāo),,通過整合包括數(shù)據(jù)要素和應(yīng)用場景等多方資源,推動人工智能技術(shù)迭代發(fā)展與落地應(yīng)用,,以高質(zhì)量數(shù)據(jù)要素驅(qū)動人工智能技術(shù)創(chuàng)新突破,,為實現(xiàn)科技強(qiáng)國貢獻(xiàn)力量。 (記者 王萌) |
|||
|
|