由于大数据分布式平台的特殊性,防火墙、病毒防治等常规安全保障机制没有办法确保大数据服务的安全,大数据在应用过程中往往存在如下一些安全问题。
(1)分布式计算的安全性。执行多个计算阶段分布式程序必须获得双重安全保护,一个用于程序自身的安全保护,一个保护程序中的数据。
(2)分布式数据的安全性。NoSQL非关系型数据库系统自身存储的安全问题,以及分布式节点数据自动分发与聚集等管理所需的额外安全机制。
(3)数据来源的安全性。数据源的出处复杂性在不断增长,当一个系统接收到海量多源异构数据时,大数据采集平台必须解决每一个输入数据的安全可信问题。
(4)安全监控与审计问题。存储海量数据的互联网大数据云平台和关键基础信息系统,已成为网络攻击的重要目标,同时数据的归属权问题也日益凸显,需要研究实时保障大数据安全使用的监控与审计系统。
(5)加密与访问控制问题。大数据安全须解决终端和云端两种加密模式及其应用;同时,由于黑客攻击、内部人员非授权访问等导致的信息泄露事件时有发生,大数据的访问控制模型也面临挑战。
(6)大数据安全隐私问题。大数据时代的来临,涉及安全和个人隐私的问题纷至沓来,这将使人们的生活安全以及隐私保护受到极大困扰,必须从技术、法规等多个角度加以解决。
人们普遍认为,最令人焦虑的在于您根本不知道什么时候自己的隐私就无意中被泄露出去。在大数据时代,隐私泄露已成为人们最大的担忧。大数据可将互联网中的数据转换成有价值的资源,但当大数据使人们的生活变得愈加方便快捷的同时,隐私泄露问题也随之爆发。
随着大数据的搜集和分析技术的发展,数据泄露的风险也在不断加大,人们应该正视和规避这样的风险。
1.肆意收集带来的隐私问题
在大数据环境中,可以通过医疗就医记录、购物及服务记录、网站搜索记录、手机通话记录、手机位置轨迹记录等来获取用户的信息。收集这些用户个人信息时,通常是未经用户同意,或者用户很少有机会去思考、去认同自己的数据的用途;是谁收集了自己的数据;是谁二次使用了自己的数据;如果自己的数据出现误用,将由谁负责;自己的数据是否在网上被恶意传播;自己的数据什么时候被销毁等。
因此,针对大数据平台,数据采集首先应该脱敏处理。任何公民的个人信息都是“隐私”的一部分,在没有得到个人许可或司法许可的前提下,若数据以原始状态被采集,就必须理清超越边界的范畴。而对原始数据进行脱敏处理,包括屏蔽完整的姓名、证件号码、联系方式、地址等关键信息。数据脱敏后用于统计分析和处理,是大数据安全分析的基础。
2.集成融合带来的隐私问题
集成和融合通常采用链接操作使多个异构数据源汇聚在一起,并且识别出相应的实体。小数据源通常能够反映出用户的某个活动,比如接受的医疗、购买的商品、搜索的网站、手机留下的位置特征、与社交网络互动信息、政治活动等。融合不同的小数据可以更好地服务于数据分析与管理。零售商通过集成线上、线下以及销售目录数据库,可以获得更多消费者的个人描述信息、预测消费者的购物偏好等;GPS服务商通过集成路网不同路段上的传感器数据,可以得到更好的道路规划与交通路线。然而,多个数据源的集成与融合几乎能够推理出个人所有的敏感信息,无形中给个人隐私的保护带来严峻挑战。
因此,大数据集成融合应该在用户知情授权的前提下进行。啤酒与尿片这样的经典关联分析案例,现在看来也是一种大数据应用场景,而且并不针对任何个人的推销。但当我们针对消费者个人消费习惯进行大数据分析,并得到针对性很强的个性化营销策略的时候,其实消费者的隐私已在并不知情和未经授权的情况下被利用了,所以要针对个性化数据集成融合就需要以用户知情为前提。
3.数据分析带来的风险
目前,基于大数据的计算框架,其计算分析能力几乎已经能够达到“大海捞针”。数据科学家通过分析,可以挖掘出大数据中的异常点、频繁模式、分类模式、数据之间的相关性以及用户行为规律等信息。然而,大数据分析的最大障碍是数据隐私问题。在某种程度上,隐私不可怕,可怕的是用户的行为可以通过大数据分析被预测。大数据下的个性化推荐系统是电子商务网站根据用户的兴趣特点和购买行为,向用户推荐感兴趣的信息和商品。然而,用户的商品购买信息以及行为模式很有可能被商务网站挖掘出来,进而导致隐私信息泄露。
因此,数据分析应该针对群体对象,而非个体。大数据分析可以发现同性和趋势、关联与耦合。通过大量的脱敏数据的整合分析,可以发现一个社会群体的某些特质;通过一些共同的行为轨迹,可以发现事物之间的关联。如购物网站经常发布的网上购买最多的商品是什么、视频网站经常发布的热门剧是什么、春运时搜索网站经常发布人口迁移的热力指数及人口迁移方向和趋势等,这样的大数据分析都不针对具体个体,也不揭露任何个人信息。