文档详情

信息检索与web搜索课件 05学习资料.pptx

发布:2025-05-06约小于1千字共28页下载文档
文本预览下载声明

信息检索与Web搜索;相关硬件基础知识;3;ReutersRCV1语料库;5;6;7;基本思想:对大规模文档集的索引构建进行分而治之

算法步骤:

将文档集分割成若干大小相当的部分

将每个部分的词项ID-文档ID二元组排序

将每个部分的倒排记录表写到磁盘中

将所有的中间结果合并成整个文档集的倒排索引;9;10;11;内存式单遍扫描索引构建SPIMI;13;14;分布式索引构建;Google数据中心(2007Gartner);17;18;MapReduce;基于MapReduce的索引构建;动态索引构建;22;23;24;25;26;参考资料;课后作业

显示全部
相似文档