信息检索与web搜索课件 05学习资料.pptx
文本预览下载声明
信息检索与Web搜索;相关硬件基础知识;3;ReutersRCV1语料库;5;6;7;基本思想:对大规模文档集的索引构建进行分而治之
算法步骤:
将文档集分割成若干大小相当的部分
将每个部分的词项ID-文档ID二元组排序
将每个部分的倒排记录表写到磁盘中
将所有的中间结果合并成整个文档集的倒排索引;9;10;11;内存式单遍扫描索引构建SPIMI;13;14;分布式索引构建;Google数据中心(2007Gartner);17;18;MapReduce;基于MapReduce的索引构建;动态索引构建;22;23;24;25;26;参考资料;课后作业
显示全部