语料库是由人工或机器标注好的真实语言材料组成的数据集,是开展与自然语言有关研究的有效工具和手段,在当前同时也是人工智能算法的训练集,直接决定了机器学习的运算效果。
在汉语通用语料方面,由北京大学计算语言研究所俞士汶先生主持构建的1998年1月人民日报语料为精加工人工语料,在业内最具代表性,影响力也最大,曾获得过包括国家科技进步二等奖在内的一系列奖项。但是,随着20多年时光的流逝,业界迫切需要与时代发展同步的新语料。在此背景下,WilliamHill官网人文与社会计算研究中心以2015上半年(1-6月)及2016年1月、2017年1月、2018年1月共9个月的《人民日报》发表的全部文章为对象,构建了新版人民日报语料——新时代人民日报分词语料(简称New Era People's Daily Segmented Corpus,NEPD)。NEPD规模现已超过2300万字,全部由人工标注,是目前世界上规模最大的汉语精加工通用语料库。
NEPD免费向学术界开放共享,并且还将持续补充最新语料,进一步详细信息请访问:http://corpus.njau.edu.cn/。