文档详情

LJCorpus中文语料库分析软件使用手册.doc

发布:2018-07-02约7.16千字共15页下载文档
文本预览下载声明
Copyright ? 2009灵玖软件 Website: TEL:010玖LJCorpus中文语料分析软件LING-JOIN Chinese Corpus Parser Syetem用户手册MANUALFriday, April 16, 2010Document InformationDocument ID LINGJOIN-LJCorpus -MANUALVersion V1.0Security level Status Creation and first draft for commentAuthor DateApril 11, 2010Publisher/Approved byVersion History Note:The first version is”v0.1”. Each subsequent version will add 0.1 to the exiting version. The version number should be updated only when there are significant changes, for example, changes made to reflect reviews. The first figure in the version 1.x denotes current review status by. 1. x denotes review process has passed round 1 etc .Anyone who create, review or modify the document should describe his action.Version Author/ReviewerDateDescriptionV1.02010-04-16Creation and first draft for comment.目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc259197153 LJCorpus中文语料库分析软件简介: PAGEREF _Toc259197153 \h 3 HYPERLINK \l _Toc259197154 LJCorpus中文语料库分析软件操作步骤 PAGEREF _Toc259197154 \h 3 HYPERLINK \l _Toc259197155 第一步:新词发现 PAGEREF _Toc259197155 \h 5 HYPERLINK \l _Toc259197156 第二步:导入用户词典,对语料进行分词及词性标注 PAGEREF _Toc259197156 \h 6 HYPERLINK \l _Toc259197157 第三步:词频统计及翻译 PAGEREF _Toc259197157 \h 9 HYPERLINK \l _Toc259197158 四、关于灵玖软件 PAGEREF _Toc259197158 \h 10 HYPERLINK \l _Toc259197159 灵玖软件介绍 PAGEREF _Toc259197159 \h 10 HYPERLINK \l _Toc259197160 联系我们 PAGEREF _Toc259197160 \h 10 LJCorpus中文语料库分析软件简介:语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。随着互联网的爆炸式增长,中文语料库的规模也随之剧增。语言学的研究面临着各类复杂的海量数据,亟需采用信息化的手段,自动分析相关的语言数据,从而更好地研究并开发使用的自然语言信息处理系统。LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术。LJCorpus中文语料库分析软件的四大功能主要包括:新词发现:从给定的大规模文本文件集合中,挖掘出内涵的新词语列表,可以用于用户专业词典的编撰。识别出的新词结果还可以进一步编辑标注,编辑好的新词词典,可以作为专业知识库导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化情况。分词标注:对生语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。统计分析针对切分标注结果,系统可以自动地进行统计分析,分析结果包括:一元词频统计
显示全部
相似文档