论数据可用性的评估方法 .pdf
随着大数据时代的来临,数据集合中劣质数据也随之大量产
生,导致信息数据整体质量下降,数据的有效使用受到了极大限
制。为了更加有效发挥各行各业大数据的作用,开展数据可用性
研究具有较大的战略意义。
1数据可用性定义
研究者们普遍认为,数据的可用性可以从数据的一致性、准
确性、完整性、时效性及实体同一性五个方面进行考察,其具体
定义如下:
①数据的一致性:指数据信息系统中各相关数据信息之间相
容、不产生矛盾。
②数据的准确性:指数据信息系统中每个数据表示现实物体
的精准程度。人们对数据进行操作的各个环节都可能影响数据准
确性。
③数据的完整性:指数据集合包含的数据完全满足对数据进
行各项操作的要求。
1
④数据的时效性:是指在不同需求场景下数据的及时性和有
效性。对应用系统而言,往往对数据时效性要求较高,过时的数
据即使分析出来了也不会对实际应用产生有价值的影响。
⑤实体的同一性:指同一实体在各种数据源中的描述统一。
一个数据集合,满足以上五个性质的程度称为该数据集合的
可用性。
2评估方法分析
对于数据可用性评估,国内外研究人员也进行了许多工作。
以下从数据的一致性、精确性、完整性、时效性、实体同一性五
个方面进行介绍和分析。
21基于一致性的方法
文献[1]针对异地备份系统中数据持续变化的情况,设计并实
现了一种基于累积摘要值的一致性检测方法。该方法解决了传统
一致性检测需要中断备份任务的问题,保证了备份任务的连续性,
并且能够迅速检测本地服务器和远程备份中心数据的一致性,提
高了一致性检测的效率。
2
文献[2]从已有的一致性维护方法出发,针对海量数据多副本
之间一致性维护,从一致性维护过程中所涉及的更新发布、更新
传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,
提出了相应的解决办法。
文献[3]针对L数据上,讨论了不完整XML数据的表示问题。
另外,针对云存储服务中数据的完整性问题,一些研究者提
出了PDP和POR。这两种方案都采用了概率性证明思路,即存储服
务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。
基于数据完整性评估方面的结论还较少,特别是具有普遍适
用价值的方法,还有待进一步研究。
24基于时效性的方法
文献[7]针对历史评价数据时效性会影响评价计算准确性的问
题,引入了评价数据的时间属性,构造了评价数据衰减因子,减
小了时效性对于评价计算准确性的影响。
文献[8]研究了包含冗余记录的集合在给定时效约束下的时效
性判定问题,并首次提出了时效性判定问题的求解算法
3
在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据
的统计分析对比,提出了采用近1年的能耗数据作为统计样本的
建议。
基于时效性方面的研究非常匮乏,已有的少量研究结论都主
要针对一些特殊应用,还需深入系统的研究。
25基于实体同一性的方法
实体同一性是数据可用性研究较多的一个方面,实体同一性
研究主要涉及两类方法:第一类是从语义规则的角度进行同一性
研究,这类方法主要通过经验知识来描述实体的同一性问题;第二
类是从相似性的角度进行同一性研究,该类方法主要采用相似度
函数来对实体同一性进行判定。
针对实体同一性方面的相关技术,包括实体识别的效率问题、
识别的增量计算、半结构化数据上的实体识别等,文献[4]展开了
相对完整的讨论。
对于实体统一性的评估方法大多针对关系数据,针对复杂结
构数据、半结构化数据、非机构化数据方面的研究还很少。
3结束语
4
在大数据时代,数据量急剧增长,数据的可用性问题将严重
影响基于数据的知识和决策。确保大数据的可用性是进行大数据
分析、处理的关键基础,将直接关系到大数据价值的体现。本文
针对数据质量问题,从数据可用性的角度,介绍并分析了目前国
内外基于单个属性的数据质量评估方法,将有助于促进大数据可
用性的研究。