相关动态
国家语委现代汉语语料库介绍-中文语言资源联盟.pdf
2024-11-10 17:56
国家语委现代汉语语料库介绍

国家语委现代汉语语料库介绍-中文语言资源联盟.pdf

国家语委现代汉语语料库介绍 教育部语言文字应用研究所 教育部语言文字应用研究所 2006 2006 语料库建设 国家语委语料库建设 1991年12月国家语言文字工作委员会提出立项; 1992年4月召开现代汉语语料库选材原则专家论证会; 1993年1月制订《现代汉语语料库选材原则》; 1993年9月召开现代汉语语料库选材专家审定会; 1998年底建成 7000万字的生语料库; 目前已完成1亿字生语料和5000万字标注语料; 语料库建设和加工工作还在继续进行。 被列为国家语委“九五”、“十五”科研重大项目 得到国家科技部“863”、“973”计划多个项目的支持 “智能中文信息处理平台” “图像、语音和自然语言理解” “中文信息处理应用基础研究” 语料库的主要内容 未经标注加工的生语料库 标注语料库 词语切分 词类标注 句法树库 内部结构 句法树库 外部功能 分词词表 88000词条 标注语料库 词性标注 频率信息 生语料库 语料库加工标注规范 语料库软件工具 语料库的主要用途 主要用途 语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 语料来源 1993年以前的语料 以人工录入印刷版本的语料为主 约7000万字 1993~2002年的语料 部分采用人工录入印刷版本语料 约1500万字 部分来源自网络电子文本 约1500万字 2002以后的语料 以网络电子文本为主 约1000万字 语料分类 三个主要类别 人文与社会科学类 包括政法、历史、社会、经济、文学、艺术等类别语言材料 自然科学类 自然科学的语言材料(含农业、工业、医学、电子、工程技 术等),涉及科学技术发展的各个领域。 综合类 应用文 难于归类的语料 人文与社会科学类 人文与社会科学类划分为8个大类和30个小类: 政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、 民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。 人文与社会科学类约占语料总量的50% 自然科学类 自然科学划分为6类: 数理 生化 天文地理 海洋气象 农林 医药卫生 自然科学类约占语料总量的30%, 综合类 综合类语料由应用文和难于归类的其他语料两部分组 成。
    以上就是本篇文章【国家语委现代汉语语料库介绍-中文语言资源联盟.pdf】的全部内容了,欢迎阅览 ! 文章地址:http://dh99988.xhstdz.com/quote/63225.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多   
发表评论
0评