新时代人民日报分词语料库(NEPD)向学术界免费开放

来源: 威廉希尔发布时间 : 2021-01-18 点击量:

语料库是由人工或机器标注好的真实语言材料组成的数据集，是开展与自然语言有关研究的有效工具和手段，在当前同时也是人工智能算法的训练集，直接决定了机器学习的运算效果。

在汉语通用语料方面，由北京大学计算语言研究所俞士汶先生主持构建的1998年1月人民日报语料为精加工人工语料，在业内最具代表性，影响力也最大，曾获得过包括国家科技进步二等奖在内的一系列奖项。但是，随着20多年时光的流逝，业界迫切需要与时代发展同步的新语料。在此背景下，WilliamHill官网人文与社会计算研究中心以2015上半年（1-6月）及2016年1月、2017年1月、2018年1月共9个月的《人民日报》发表的全部文章为对象，构建了新版人民日报语料——新时代人民日报分词语料（简称New Era People's Daily Segmented Corpus，NEPD）。NEPD规模现已超过2300万字，全部由人工标注，是目前世界上规模最大的汉语精加工通用语料库。

NEPD免费向学术界开放共享，并且还将持续补充最新语料，进一步详细信息请访问：http://corpus.njau.edu.cn/。

上一篇：公司获批首批国家智能社会治理实验基地

下一篇：喜报：黄水清教授团队获批江苏高校哲学社会科学重点研究基地

首页

关于我们

人才培养

科学研究

团队队伍

员工管理

人才招聘

MEM培养

科学研究

科研动态

科研成果

科研平台

新时代人民日报分词语料库(NEPD)向学术界免费开放

来源: 威廉希尔发布时间 : 2021-01-18 点击量:

科学研究

新时代人民日报分词语料库(NEPD)向学术界免费开放

来源: 威廉希尔 发布时间 : 2021-01-18 点击量:_showDynClicks("wbnews", 1692559790, 1332)

来源: 威廉希尔发布时间 : 2021-01-18 点击量: