中国信息大学:海量数据处理不可不知的技术.doc
文本预览下载声明
海量数据处理不可不知的技术
2013年10月15日学术交流会上,电商工程系翟丽老师献上的关于“NOSQL非关系数据库”的研究,为与会者展示了大数据时代数据处理技术的新变化。
在90年代,网站的访问量一般都不大,用单个数据库完全可以轻松应付。在那个时候,更多的都是静态网页,动态交互类型的网站不多。以MySQL为代表的关系型数据库为互联网的发展做出了卓越的贡献,其稳定性高,功能强大。
最近10年电子商务和社交网站开始快速发展,网络数据量暴增,数据形态异常复杂。论坛、博客、sns、微博逐渐引领web领域的潮流,社交Facebook活跃的用户数接近12亿;Twitter每天新增的数据量也在百万级、甚至千万级的;新华网报道称新浪微博用户每日发博量突破一亿。电商交易日日攀升,相关资料显示,淘宝每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据;全球性在线竞争情报服务公司Hitwise在2013年6月20日公布的618期间电商监测数据显示,京东商城当日访问量为天猫的两倍左右,比617上升31%。
可见,海量数据处理和分析已经成为互联网业务发展的关键所在。随着数据量的急速增长,关系型数据在IO读写方面表现的力不从心。一般一台MySQL服务器,可能支撑的规模在几千万,就算复杂一些的也只有几百万,这样,为解决面临的数据问题,每天都必须增加服务器。当然,这是不现实的。
此时,非关系数据库NOSQL(Not OnlySQL)应运而生。与传统的关系型数据库相比,它具有以下三方面优势:1. 对数据高并发读写,即对多用户同时查询、修改数据项的响应速度快;2. 对海量数据的高效存储访问;3. 对数据的高扩展性和高可用性,由于没有结构的限制,随时可以存入自定义的数据格式。根据官方文档显示,当数据量达到50GB以上时,非关系型数据库MongoDB的访问速度是MySQL10 倍以上。
非关系型数据库(NOSQL)特有的优势,使之成为了关系型数据库的有效补充。目前新浪微博、淘宝数据平台、Facebook、Twitter、视觉中国网站、优酷数据分析等都在不同程度上采用了NOSQL数据库技术。可预期,该技术在海量数据的模糊处理方面仍会大有作为。
翟丽老师认为NOSQL技术对于我校的数据库教学具有一定的影响。数据库教学中以关系数据库为教授内容,NoSQL技术作为当前数据库领域不可忽视的力量,应该引起关注。这也在教师的认知和讲授能力、学生的接受水平、学校的实验环境等方面带来了一些挑战。
关系型数据库和NoSQL分别适应不同的需求,翟老师后续将研究,如何把握NoSQL技术和关系数据库的之间的关系,巧妙地融合两种技术,并提出有关NoSQL的教学方法。
显示全部