前言
背景
随着信息网络和基于信息网络的各种应用的不断发展和普及,大量的个人隐私数据存在于网络空间。隐私泄露事件不断发生,泄露的内容五花八门,包括个人终端文件、个人身份信息、网络访问习惯、兴趣爱好乃至邮件内容等,隐私泄露问题已成为人们广泛关注的焦点。隐私数据泄露不仅会影响到个人利益,甚至已经威胁到国家的网络空间安全。
隐私数据的来源主要包括:主机设备(如个人终端设备、服务器等)以及网络空间。其主要的获取手段除了通常的恶意软件、网络数据包截获外,还包括通过应用软件对用户行为信息的采集等。近年来,国内外数据隐私泄露事件频发,令人触目惊心。2010年,奇虎360公司和腾讯公司之间就曾爆发了著名的“3Q”大战。两家公司相互指责对方的软件泄露了用户的隐私,继而引发了中国互联网历史上第一次因为隐私泄露问题而波及近八成网民的重大事件。此后涉及隐私泄露的事件层出不穷,2010年,谷歌街景图片侵犯个人隐私事件;2011年,发生的CSDN用户账号密码泄露事件。据美国媒体报道,2013年3月11日,美国18位政要和名流的隐私信息被黑客在网络上曝光,试想这些隐私信息如果涉及国家安全和政府机密,造成的后果将不堪设想。据媒体调查显示,55.8%的受访者认为“保护个人隐私越来越难”,29.3%的受访者认为“个人信息被随意公开泄露”。
另一方面,美国等国家也一直在采用各种手段监视和采集用户的隐私数据。2013年爆发的斯诺登事件,使人们对大规模元数据采集后的元数据的价值与地位有了全新理解,对元数据所涉及的个人隐私等问题也有了全新的认识与定位。没有规范的数据采集法律法规和有效的数据隐私泄露行为的分析技术,就难以保障用户隐私数据不被窃取和非法使用。从长远看,网络空间隐私保护治理是一个趋势,网络安全国际合作也是必然。如此众多的实例表明,隐私泄露问题极大地影响了人们正常的网络生活,对于互联网的健康发展极为不利,已成为亟待解决的互联网安全问题,对隐私泄露问题的分析和研究已成为具有重要意义的研究方向。
作者在用户隐私数据泄露行为的模型与分析方法方面进行了一系列深入而系统的研究工作,本书主要以针对隐私泄露行为分析的隐私Petri网模型方法为基础,介绍了隐私泄露软件行为的定性与定量相结合的分析方法,并深入地探讨了针对接力模式、主从模式和互备模式等主流的多进程协作数据窃取行为和采用伪装模式、隐藏模式和变形模式等隐藏行为的建模与分析方法。另外,还介绍了隐私数据泄露行为的分析工具,重点介绍了基于隐私Petri网的隐私泄露分析工具——PPNT。本书绝大部分内容取材于作者近期在国际重要学术期刊和会议发表的论文,全面、系统地展示了很多新的研究成果和进展。
内容安排
本书共9章,从结构上可分为3个部分。
第1部分是对隐私泄露案例与现状的分析,由第1章构成。
第1章首先介绍了广义的隐私定义和分类以及存在于信息系统中的隐私数据,并对这些隐私数据泄露的途径进行了分析。然后,对近年来产生重大影响的隐私数据泄露事件进行了回顾和分析。其中“棱镜计划”隐私数据泄露事件暴露了美国直接利用九大美国顶级互联网公司的中央服务器收集用户主机上和网络传输中的各种数据。人们存在于主机和网络上的各种数据和信息都可能成为隐私窃取的对象。搜狗浏览器隐私数据泄露事件说明,在用户主机上的正常软件有可能将用户对该软件的使用情况及操作内容在用户不知情的情况下进行回传,从而造成隐私数据的泄露。奇虎360公司的软件隐私数据泄露事件表明,一些软件依托一些“正常”软件功能,可能会收集用户的数据和使用情况。索尼用户隐私数据泄露事件中索尼公司对其自身提供的云平台,缺乏足够的安全认识,致使系统存在的漏洞轻易地就被人利用,导致用户租用其计算资源以后,能为所欲为,却无法进行跟踪调查。在本章的最后讨论了当前主要的隐私泄露分析技术,并对其中的技术特点、优势和存在的问题进行了系统的分析和比较,指出了本书将要重点解决的3方面问题。
第2部分重点介绍模型与分析方法,主要包括第2~6章。
第2章介绍了Petri网、高级Petri网、随机高级Petri网和着色Petri网等模型的基础知识。Petri网是信息处理系统描述和建模的有力的数学工具之一,主要特性包括:并行、不确定性、异步以及分布描述能力和分析能力。Petri网元素的模型含义:位置描述系统的局部状态(条件或状况),变迁描述系统状态的事件,弧规定状态和事件之间的关系,标记用于表示对象实体。变迁实施规则和标记的流动模拟系统的动态和活动行为。Petri网模型的主要分析方法依赖于:可达图、关联矩阵、状态方程和不变量。
第2章还讨论了HLPN及其演化过程:它们的提出和发展是随着解决同构MC状态空间的化简以及HLPN可达树的直接化简问题而展开的。最终目的是简化HLPN系统性能模型求解的复杂性。在HLPN的基础上,引入指数分布的变迁实施时间的随机变量,虽然其描述模型的能力有所增加,但其MC的状态空间与相同模型的SPN的MC状态空间一样大,解决模型的性能评价能力并未提高。在HLPN中引入复合标识的操作可以同构于MC的状态合并操作而简化状态空间,从而得到具有复合标识的SHLPN。这种SHLPN不但描述模型的能力较强,而且求解模型的性能评价能力也有了显著提高,但是,求解其标识空间的复杂性问题并未得到解决。最后,本章介绍了着色Petri网的基本概念、图形表示和构造方法。本章内容为隐私Petri网模型和分析方法提供了基础知识。
第3章介绍了隐私Petri网(privacy Petri net,PPN)的概念和建模方法。作为全书的模型理论基础,PPN是一种具有严格的形式化定义、直观的图形化表示、模块化的建模方法,并具有可计算能力的模型。本章详细介绍了PPN用以刻画隐私泄露软件行为的基本元素,描述了基于模块的建模方法,给出了主要的计算方法,包括分析行为结果的相关算法和进行判定的相关定理。最后给出了实验测试环境,介绍了其基本框架、主要组件和完整的工作流程。本书的分析方法均以PPN模型为基础而展开。
第4章首先对于隐私泄露型恶意软件构建判决PPN模型,对于待检测的软件进行定性判别,给出隐私泄露软件行为的类型、内容、过程和去向等,提高了分析和检测的正确率;而对于应用程序给出了覆盖隐私泄露行为各方面特性的量化分析,包括可能性、严重性、操纵性、隐秘性及整体泄露度等,提供了多角度、可比较的指标体系。在此基础上,进一步对隐私泄露型恶意软件和应用软件进行了实际分析,给出了相应的用例分析结果和分类分析结果,针对实验结果中发现的有价值的信息进行了讨论。最后,将PPN和已有的一些工作,包括主流的研究工作和商用软件进行了对比。
为了减少被杀毒软件检测和发现的机会,持久不断地对于目标主机实施恶意行为,很多隐私泄露软件采用多种多进程相互配合的技术。第5章针对接力模式、主从模式和互备模式等主流的多进程协作技术进行了建模和分析。对于3种模式的多进程协作行为,分别构建了PPN模型,给出了相关算法,并且在实际软件样本集上进行了用例分析和分类分析,实验结果表明,该方法对于不同类型软件的多进程协作行为都能够保持较高的检测率,此外还得出了多进程协作隐私泄露行为的其他一些有价值的相关特性,并有针对性地进行了讨论。
第6章对于隐私泄露软件的另外一个重要特点——隐秘性进行了深度分析。隐私泄露软件有一个重要的共同点就是为了尽可能多地收集数据,要“努力”避免被安全软件或者用户发现。隐私泄露软件高隐秘性行为主要分为伪装模式、隐藏模式和变形模式3类。本章通过构建带有新元素的PPN模型,分别分析了采用伪装模式、隐藏模式和变形模式技术的隐私泄露软件的行为,并给出了实际软件的用例分析以及与已有安全软件的功能性对比。
第3部分介绍了软件行为跟踪与分析的相关工具。主要包括第7~9章。
第7章选取当前比较典型的监控、分析、记录软件行为的平台或工具加以介绍,如Norman Sandbox,GFI Sandbox,Ether等。各类软件行为类分析平台或工具,虽然所使用的展现形式和功能结构各有不同,但其基本的工作原理都是监视和记录实验环境中待分析的目标程序在系统中运行时自身和操作系统的一些相关动作,并加以关联分析,以达到理解其语义行为的目的。这一基本思路在实际分析中得到了不错的应用效果,但却普遍存在两方面的问题:一是“囫囵吞枣”,对于各类恶意软件一视同仁,只是简单地将分析结果进行分类展示,缺少对于各种目的不同的恶意软件的针对性分析,比如隐私泄露行为等;二是“管中窥豹”,局限于细粒度的程序行为分析,严重缺少上升到语义级别的行为模型和综合行为分析,因此成为分析能力难以突破的瓶颈。
第8章介绍了基于PPN模型的软件隐私泄露行为原型系统的设计思路和实现方法。本章将基本的定量与定性分析方法、针对多进程协作和高隐秘性行为的深度分析方法三者结合,得到了针对隐私泄露行为分析的完整实验原型系统。该系统的基本架构包括软件行为数据采集模块、PPN模型库模块、泄露行为分析引擎模块、输入输出参数管理模块等主要部件。主要的工作流程包括模型元素构建、输入参数配置、原始数据采集、基本操作模拟、规则定理校验、输出结果计算等。最后给出了应用该系统对于前述的软件样本的用例分析,以说明实际分析的具体流程。该系统能够获得较为准确和全面的分析结果,为隐私泄露软件行为分析的实际应用提供了有力工具。
第9章通过PPNT对于实际软件的分析结果,帮助人们了解隐私泄露行为的本质,即目标软件的行为实际形成了从隐私数据出发的数据流,经过层层转发,最终泄露到攻击者手中。主要的隐私泄露行为包括三大类别:一是针对敏感文件数据的隐私泄露行为,二是针对网络访问动态生成数据的隐私泄露行为,三是针对用户使用软件长期形成的习惯数据的隐私泄露行为。这些数据涵盖了用户在日常使用过程中几乎所有方面的内容,因此可以说是防不胜防,而且攻击者在这个过程中,还会采用各种各样的多进程协作技术以及高隐秘性技术,对于软件隐私泄露行为进行伪装、隐藏和改造,以阻止软件的隐私泄露行为被发现。因此,对于隐私泄露行为,必须要有PPNT这类的专业工具来进行全面、细致、深入的分析。
本书特点与读者对象
本书具有以下鲜明的特色。
(1) 完整性:本书内容丰富全面,结构合理,体系完整,从隐私数据泄露行为的问题分析入手,介绍了有针对性的经典基础理论,融合了作者近年提出的隐私Petri网模型理论方面的最新研究成果和研发的分析工具。并将模型方法和分析工具应用于具体的隐私数据泄露的典型应用案例之中,层层深入。
(2) 学术性:本书具有一定的理论高度和学术价值,书中绝大部分内容取材于作者近期在国际重要学术期刊和会议上发表的论文,全面展示了隐私Petri网模型分析与评价方面最新的科研成果,具有一定的学术参考价值。
(3) 开放性:本书对一些领域内的研究热点和发展趋势作了系统的分析和详细的介绍,提出了很多重要的、亟待解决的科学问题,可为研究人员的选题提供有益的参考。
据此,本书适合我国计算机网络安全领域的教学、科研工作和工程应用参考。既可供计算机、通信、电子、信息等相关专业的教师、研究生和大学高年级学生作为教材或教学参考书,也可供隐私保护、数据挖掘、软件行为分析和网络安全等方面的研究人员和工程技术人员使用。
致谢
作者的研究工作得到了国家自然科学基金项目(60803123,61173008, 61232010)和国家重点基础研究发展计划(“973”计划,2014CB340400)项目等的资助,在此表示深深的谢意!
由于作者水平所限,加之基于模型的隐私数据泄露行为建模与分析技术的研究仍处于不断发展和变化之中,书中错误和不足之处在所难免,恳请读者予以指正。
作者
2014年9月