文档详情

天津大学《自然语言处理与信息检索》课程教学大纲.PDF

发布：2017-05-05约1.17万字共8页下载文档

文本预览下载声明

天津大学《自然语言处理与信息检索》课程教学大纲自然语言处理与课程编号： 2160258 课程名称：信息检索学时： 32 学分： 1.5 学时分配：授课：16 学时上机：16 学时授课学院：计算机科学与技术学院适用专业：计算机、语言学专业本科生或研究生统计学、面向对象程序设计、人工智能或机器学习的相先修课程：关知识一．课程的性质与目的自然语言处理技术是自动人机交互、搜索引擎、机器翻译、信息抽取等应用的重要支撑技术。本课程将系统地介绍自然语言处理（NLP ）的基本概念、常用的算法和重要的应用。在基本概念和算法上，将介绍词汇、句法、语义分析等的基本知识。贯穿其中，将重点介绍统计自然语言处理的关键算法，主要是在大规模语料库的支持下，统计语言模型在语言知识自动学习中的应用。在应用方面，将结合文本分类和聚类、机器翻译、信息检索、网络挖掘等进一步加深学生对自然语言处理系统的设计策略和实现技术的了解。二．教学基本要求了解和掌握自然语言处理的基本理论基础，包括统计学和语言学基础，词汇、语法和语义的相关概念及算法，以及自然语言处理的理论和方法在文本自动分类、聚类、信息检索和机器翻译等方面的应用。三．教学内容课程的基本内容包括：（1）自然语言处理的数学基础，如贝叶斯模型、噪声信道模型、熵和互信息等的概念、n 元语法模型和 HMM 模型等，同时介绍这些模型在具体实践中的应用；（2 ）自然语言处理的语言学基础，介绍有关词法和语法等方面的知识，包括词语搭配、语义消歧、概率句法分析等内容；（3 ）自然语言处理的应用，如文本分类和聚类、信息检索、统计机器翻译、互联网信息挖掘。课堂讲座（26 学时）第一章绪论介绍自然语言处理的相关概念，使学生有一感性认识；同时说明自然语言处理中的不同方法论。第二章统计学基础统计学基础知识，包括贝叶斯模型、噪声信道模型，熵、交叉熵和互信息等的概念。第三章语言学基础介绍有关词性、句法、语法和语义等方面的语言学知识；基于语料库的统计自然语言处理，包括语料获取和标注以及应用等。第四章词语搭配如何鉴定相邻或非相邻词语之间组合强度，即如何识别有意义的短语结构。第五章 n 元语法模型 n 元语法模型的建模和应用。第六章语义消歧有监督和无监督的语义消歧。第七章隐马尔可夫模型与词性标注有关隐马尔可夫模型的建模、算法及其在词性标注中的应用。第八章概率句法分析上下文无关文法（CFG ）、概率上下文无关文法（PCFG ）、句法分析树等概念；基于概率的最佳句法分析树的确定；滨州树库；改进 PCFG 的方法。第九章文本分类和聚类文本分类和聚类的算法介绍。第十章信息检索与挖掘有关信息检索、信息挖掘的模型和理论。第十一章统计机器翻译基于统计的机器翻译的概念、方法、模型和应用等。实验（6 个学时）实验一：基于搜索引擎，判断某种语言搭配是否符合语言规范；实验二：隐马尔可夫模型及其在词性标注中的应用实现；实验三：在指定语法下，建立给定句子的最佳句法分析树。四．学时分配教学内容授课上机实验实践实践(周) 第一、二章 2 第三、四章

显示全部

相似文档