Fish AI 速读
原文 994 字,FishAI速读将为你节省 5 分钟
总结
智源研究院发布中文互联网语料库CCI 3.0,包括1000GB数据集及498GB高质量子集CCI3.0-HQ。CCI系列数据集下载量超4万次,服务500多个企事业单位的大模型研发,助力中文语料和训练数据建设,支撑人工智能产业发展。
关键要点
🌐CCI 3.0规模扩大,来源广泛。收录超2.68亿个网页,涵盖多领域,数据规模比CCI 2.0扩大近一倍,数据来源机构扩展至20多家,提升数据覆盖面和代表性。
📝CCI 3.0精细标注,赋能应用。对原始数据进行多维度细粒度分类和详细标记,筛选高价值数据,CCI 3.0 HQ是高质量子集,可满足不同需求。
🎉CCI 3.0效果显著,更懂中文。在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,CCI 3.0 HQ效果更突出。