正在进行安全检测...

发布时间:1714708520

龙源期刊网http://www.qikan.com.cn
数据在数据仓库中该保留多长时
作者:
来源:《中国计算机报》2015年第33
我们是否需要强制规定保留数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们?关于是否应该无限期保存数据的争论有两个对立面。最后将具体到保留的数据类型、保留数据的目的与用途,以及数据泄露造成的风险。
在美国,你需要保留最近七年的财务数据以备税务局审核。但是你的业务数据或者个人数据是否存在这么一个硬性的保留期限呢?随着数据量的不断增加,这个问题变得越来越难以回答,同时也为数据管理带来了更多挑战。
数据掌控在业务高管、企业负责人以及IT管理者手中,他们有足够的理由希望存储更多的数据。从数据中发现新亮点这足以诱惑人们增加存储的数据量。但是,有些人也认为,大量存储的数据已经不仅是简单的经济成本问题,它们也带来了风险成本。我们是否需要强制规定保留数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们?数据长期存储的经济学
现在,我们来考虑一下长期存储大量数据的经济学问题。搜索关键字硬盘存储的高昂费,就会找到2009年的几个数据,在内部系统中每GB每个月的存储成本是25美元,相当25000美元/TB,而将10TB数据存储五年的总体拥有成本将近1亿美元。但今天,在亚马逊上存储10TB数据的成本则是每月300美元。
现在我们用杰文斯悖论来整体分析云存储或者云计算。存储成本的降低会提升使用量。低成本的分布计算资源加上低成本、供应量充足的硬盘和类似Hadoop的开源软件,2020年,预计大数据存储市场的规模将达到500亿美元。信息生命周期管理
还有人记得信息生命周期管理这个缩写为ILM的名词吗?在2004年的时候,主要的存储供应商都在推动ILM战略,以帮助存储管理员通过存储层级方式降低存储的整体成本。关键数据可以用高可用性的冗余技术存储,而比较陈旧的数据则以比较低的服务等级进行低成本存储。按照数据的价值规划在基础架构方面的投入,从而降低总体成本。

龙源期刊网http://www.qikan.com.cn
实施ILM需要部署一套数据分类系统,以根据元数据及业务规范来标记数据集,并且随着时间的推移随时对变化进行监控。业务词汇和元数据管理工具同数据集成和转移技术结合在一起,帮助数据从业务处理数据库转移至数据仓库、分析数据库,以及类似Hadoop的开源平台。
并不是所有人都需要从历史中获取经验,然而历史数据给大数据、数据仓库、数据保存这一主题带来了一个重要的背景。Cloudera的创始人——AmrAwadallah在他关于大数据新用例的博客中,并没有将关注点放在成本上,而是说明了如何利用Hadoop来实现活动归档。他的观点是:并不是所有的数据都在分析数据库中占据重要位置。细节、琐碎的数据可以以低成本的方式存储在Hadoop上。关于无限期保存数据的争论
数据分析师现在能够以几乎零成本的方式存储海量的历史细节数据,但是历史数据的数量会减少未来数据的存储空间。SalesforceCEOMarcBenioff2014Dreamforce上说:世界上90%的数据都是在过去两年内创建的。可以想象未来的数据量会有多可怕。
历史数据在探索行为模式的时候能够提供背景。验证猜想的时候,完备的数据对于检测预测模型具有相当大的价值。存储不再只考虑成本。如果你观察Hadoop和它的客户案例——DataKind(一个致力于在善意的数据科学家和寻求公益活动帮助的团队之间建立联系的非营利组织)如何利用数据来进行人道主义服务的话,主张永久保留数据的呼声会非常高。受益于数据,我们以商业与医学的方式改变着我们的世界。关于强制限制保存数据的争论
想通过分析获得价值的人们希望能够将数据永久保存,这是故事的另一面。随着数据容量的增加,数据盗窃和数字犯罪的数量和严重性也在不断增加。首席数据官希望能够自由接触数据、首席信息安全官希望能够保护数据不受操作失误的威胁。安全人员和记录保存管理人员正是出于这一原因,对当前数据和记录的保存事项进行优缺点分析。
作为美国联邦健康保险交换系统的核心,Healthcare.gov管理着政府数据仓库,其中保存着数以百万计的个人信息。目前这个被称为MIDAS的系统以无限期的方式保存着所有数据。合众社的一篇文章曾经提到,数据仓库中存储的数据类型引起了越来越大的担忧,这些信息可以被用来进行身份窃取、保险欺诈和税务欺诈。
今年,白宫任命了历史上第一位首席数据分析师——DJPatel,他的职责之一就是负责政府的精准医学计划。超过100万美国人将被征求意见:是否以自愿的方式来提供自己的医疗数据。预测模型将使用个人的状况辅以基因架构来决定更好、更精准、更个人化的治疗方法。当人们自愿提供数据的时候,他们应该知道这些数据会在研究数据库中保留多长时间。

龙源期刊网http://www.qikan.com.cn
妥协
很明显,关于是否应该无限期保存数据的争论有两个对立面。最后将具体到保留的数据类型、保留数据的目的与用途,以及数据泄露造成的风险。
随着数据源和数据量的增加,保留数据踪迹成为了一项非常艰巨的工作:特别是数据在云环境中转入转出而无需IT人员介入,或者不被安全团队监督。在最近一份Informatica赞助、由美国独立研究机构PonemonInstitute发布的研究报告中提到,超过50%的受访者认为最让安全人员担心的是不知道敏感和保密数据究竟存储在什么地方。如果你不知道你要保护的东西在哪里,那么保护就成了一个不可能的任务。
最佳实践作出了妥协,采取了类似信息生命周期管理的哲学。其根本在于将管治措施同数据分类规则相结合。一旦了解了哪些是敏感数据或保密数据,以及它们的存储位置,你就可以在数据安全技术方面进行相应的投入。当数据逐渐变得陈旧的时候,就可以在分析环境中进行数据去标记化(即数据脱敏),从而降低甚至消除风险。
如果保存数据是为了用于未来的需求,你拥有的另外一个选择是利用归档技术将数据复活。将敏感和管制信息迁移到一个集中化管理、高度压缩并且安全的数据存储环境中,配合良好的接触控制,可以降低潜在的风险。
我们大家都同意数据容量会不断增加,数据源的数量同样会不断增加。回头看看我们10年前存储的数据,它会启发你今后10年将是怎样的状况。将数据分类及保存管理引入企业数据架构中,重拾ILM将提升企业在未来的表现,并且可实现提高收益与降低风险这一目标。也许随着时间的推移,我们能够将ILM无缝融入到系统中,使之成为数据管理平台的一部分。
美国国税局要求的7年也许对于保存个人税务数据是足够的,但未来,企业数据也许需要保存70年。
链接信息生命周期管理
信息生命周期管理(InformationLifecycleManagementILM)这一概念诞生于上个世纪六七十年代。在大数据时代,这一概念又被重新提起。它是指从一个信息系统数据及其相关元数据产生和初始储存阶段到最后过时被删除时的一套综合管理方法。与早期的数据储存管理方法不同,信息生命周期管理技术根据用户的操作从全方位对数据进行管理,而不仅仅是让数据储存流程自动化。
信息生命周期管理可以根据各项数据标准自动把数据归到各层,并且自动完成数据在各层之间的移动。一般管理规则就是把新数据和常用数据放在速度比较快、比较好的储存媒体上,

龙源期刊网http://www.qikan.com.cn
而不是很重要的数据就放在速度较慢、比较便宜的储存媒体上。不过,该管理系统在界定数据的重要性时并不仅仅根据数据的使用年限和常用性,用户可以自己制订规则,调整数据在不同时期的重要性和通过延长它的使用周期来保持它的重要性。路径管理应用软件无论作为信息生命周期管理软件系统的一部分使用还是与它联合使用,都可以根据数据储存循环中的路径重新找回数据。

正在进行安全检测...

相关推荐