文档详情

melnik_VLDB-大数据文档资料.docx

发布：2025-02-20约5.93万字共20页下载文档

文本预览下载声明

Dremel:InteractiveAnalysisofWeb-ScaleDatasets

SergeyMelnik,AndreyGubarev,JingJingLong,GeoffreyRomer,

ShivaShivakumar,MattTolton,TheoVassilakis

Google,Inc.

{melnik,andrey,jlong,gromer,shiva,mtolton,theov}@

ABSTRACT

Dremelisascalable,interactivead-hocquerysystemforanaly-sisofread-onlynesteddata.Bycombiningmulti-levelexecutiontreesandcolumnardatalayout,itiscapableofrunningaggrega-tionqueriesovertrillion-rowtablesinseconds.ThesystemscalestothousandsofCPUsandpetabytesofdata,andhasthousandsofusersatGoogle.Inthispaper,wedescribethearchitectureandimplementationofDremel,andexplainhowitcomplementsMapReduce-basedcomputing.Wepresentanovelcolumnarstor-agerepresentationfornestedrecordsanddiscussexperimentsonfew-thousandnodeinstancesofthesystem.

1.INTRODUCTION

Large-scaleanalyticaldataprocessinghasbecomewidespreadinwebcompaniesandacrossindustries,notleastduetolow-coststoragethatenabledcollectingvastamountsofbusiness-criticaldata.Puttingthisdataatthe?ngertipsofanalystsandengineershasgrownincreasinglyimportant;interactiveresponsetimesof-tenmakeaqualitativedifferenceindataexploration,monitor-ing,onlinecustomersupport,rapidprototyping,debuggingofdatapipelines,andothertasks.

Performinginteractivedataanalysisatscaledemandsahighde-greeofparallelism.Forexample,readingoneterabyteofcom-presseddatainonesecondusingtoday’scommoditydiskswouldrequiretensofthousandsofdisks.Similarly,CPU-intensivequeriesmayneedtorunonthousandsofcorestocompletewithinseconds.AtGoogle,massivelyparallelcomputingisdoneusingsharedclustersofcommoditymachines[5].Aclustertypicallyhostsamultitudeofdistributedapplicationsthatshareresources,havewidelyvaryingworkloads,andrunonmachineswithdifferenthardwareparameters.Anindividua

显示全部

相似文档