中文互聯網語料資源平臺發布
2025-01-16 14:32:25 來源:中國網信網
A- A+

1月9日,在中國網絡空間安全協會人工智能安全治理專委會工作年會上,中文互聯網語料資源平臺正式面向社會發布。

在中央網信辦指導下,中國網絡空間安全協會會同國家互聯網應急中心,協同人工智能產、學、研、用單位,共同建設中文互聯網語料資源平臺,面向社會提供中文互聯網基礎語料展示下載服務。平臺支持行業領域、內容模態、體量規模等多種標簽分類,便于用戶下載與使用。

目前平臺共入駐27個語料數據集,數據總量約2.7T,主要分三類:一是中國網絡空間安全協會會同國家互聯網應急中心等建設的中文互聯網基礎語料;二是人民網、北京智源研究院、上海人工智能實驗室等單位共享的互聯網語料;三是中國網絡空間研究院、中國國家版本館、中國大百科全書出版社、中國社會科學院圖書館等單位貢獻的優質中文基礎語料樣本。登錄中國網絡空間安全協會官網,即可在首頁注冊使用平臺。

下一步,平臺將依托中國網絡空間安全協會人工智能安全治理專委會建立的語料共建共享機制,持續吸納優質中文互聯網語料進駐,探索開展數據來源合規評估、質量評價、安全檢測等服務,構建健康可持續的中文互聯網語料開發利用生態,促進和支撐大模型產業發展。

【責任編輯:紀麗娜】

中共河北省委網絡安全和信息化委員會辦公室 河北省互聯網信息辦公室 © 版權所有

聯系電話:0311-87800931   冀ICP備20010739號-4   冀公網安備13010402001960號

技術支持:長城新媒體集團