Hadoop平台下的作业调度算法研究及应用开题报告.docx
Hadoop平台下的作业调度算法研究及应用开题报告
一、研究背景和意义
随着大数据时代的到来,Hadoop分布式计算系统已经成为了处理大规模数据的重要工具。Hadoop平台下数据处理方式粗糙不精细,容易造成资源浪费,导致运行时间增加和负载不均。因此,在Hadoop平台下进行作业调度算法研究具有重要的现实意义。
Hadoop平台下的作业调度算法,对整个计算框架的性能和资源利用率都有影响。因此,研究Hadoop平台下的作业调度算法可以提高Hadoop平台的计算效率和资源利用率,从而优化数据处理效率,降低成本,提高数据处理质量。同时,在Hadoop平台下设计和实现作业调度算法可以为分布式计算系统提供更多的选择和技术支持。
二、研究内容
1.调研分布式计算系统调度算法的研究现状和进展。
2.探索分布式计算环境下的任务调度策略及其实现方法。
3.研究Hadoop平台下的作业调度算法模型,设计和实现基于该模型的算法。
4.对所提出的调度算法进行实验,对比评估其效率和性能,并进行实际应用测试。
三、研究方法
1.阅读分布式计算系统调度算法的专业书籍及论文研究现状和进展。
2.推导出Hadoop平台下的作业调度算法模型,设计和实现基于该模型的算法。
3.通过实验分析,在不同的任务负载下对所提出的调度算法进行评测。
四、研究计划
第1-2个月:调查研究分布式计算系统调度算法的现状和进展,并整理文献资料。
第3-4个月:研究分布式计算环境下的任务调度策略及其实现方法,并设计用于Hadoop平台的作业调度算法。
第5-6个月:基于Hadoop平台下的作业调度算法模型,实现调度算法并进行实验。
第7-8个月:对所提出的调度算法进行效率、性能和应用测试,并撰写论文。
第9-10个月:修改和完善论文,撰写毕业论文。
五、参考文献
1.DeanJ,GhemawatS.Mapreduce:Simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.
2.ZahariaM,ChowdhuryM,DasT,etal.Resilientdistributeddatasets:Afault-tolerantabstractionforin-memoryclustercomputing[C]//Proceedingsofthe9thUSENIXconferenceonnetworkedsystemsdesignandimplementation.2012:1-14.
3.OzcanE,SivasubramaniamA,IyerR.Cost-effectiveschedulingofdeadline-constrainedmapreducejobs[C]//201212thIEEE/ACMInternationalSymposiumonCluster,CloudandGridComputing.IEEE,2012:262-269.
4.ShiY,WuF,WangT.Mapreduceinhpcenvironments[C]//2013IEEEInternationalConferenceonClusterComputing.IEEE,2013:189-190.
5.YanY,WangS,YangC,etal.Dagschedulingforheterogeneousparallelsystems[J].IEEETransactionsonParallelandDistributedSystems,2013,24(1):133-144.