成电人物

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
【青年学人】卓中流:巧用“基因检测” 破解网站“指纹”识别难题
文:游晓鹏 张景淇 图:游晓鹏 张景淇 来源:新闻中心 时间:2018-03-20 11895

  “基因检测”算法可以运用于网站“指纹”的精准识别?这个跨度的确有点大!但并非全无可能。我校计算机科学与工程学院(网络空间安全学院)2013级直博生卓中流受到生物医学领域的基因序列检测算法的启发,提出了一种高效的网站指纹检测算法,弥补了传统模型无法对多级页面跳转进行建模的缺陷,同时提高了单一网页的检测准确率。

卓中流.jpg

  这项成果是基因序列检测算法在网络流量识别和针对僵尸网、暗网等检测方面的初次运用,为流量识别领域和网站指纹检测领域提供了新思路。相关论文已经发表在了信息安全领域顶级期刊《IEEE Transactions on Information Forensics and Security》。卓中流为第一作者,明尼苏达大学双城分校Zhi-li Zhang教授为共同作者,我校计算机科学与工程学院(网络空间安全学院)张小松教授为论文通讯作者。

网站“指纹”:亟待突破“实战”瓶颈

  从“比特币”到海外代购,跨境交流和贸易往来从未像今天这样方便快捷。然而,随之而来的网络犯罪、境外网络诈骗等案件也如影随形,危害十分严重。因此,暗网和僵尸网检测成为现代社会网络安全重要议题。

  然而,随着隐私保护技术的不断深入,暗网、僵尸网络技术得到快速发展。由于通信内容和通信双方都被隐藏,很难依靠传统手段进行网络检测。于是,研究者们提出了一种新的解决思路——网站“指纹”识别。所谓网站“指纹”,指的是访问该网站时发送和接收数据包产生的特有信道特征。

  传统的网络行为分析大多基于流量分析。当前广泛使用的基于数据包载荷特征的流量分析技术在数据载荷是明文的情况下具有很高的识别精度,但在对加密流量的分析中面临着极大的挑战。网页指纹识别是对加密流量进行分析的一种实际应用。

  然而,这种技术目前距离“实战”还有较大的距离。总体来说,它还处于未完全成熟的状态,尤其是在面对网页的“多级页面跳转”等问题时依然束手无策。如何进一步提高网站指纹识别的能力,卓中流发现了一个新方法!

突发奇想:借用“基因检测”算法

  2016年3月,卓中流无意间看到一篇SCI四区的论文,研究的是如何用“生物基因序列”来做应用识别。他隐约感到,既然都是用于“识别”,那么,“生物基因序列”的方法很可能与网站指纹识别有一定的交集。

  本来这只是一个灵光乍现的念头,但这个念头并没有像流星一样稍纵即逝。此后的五个月里,他查询了大量参考文献和资料。由于在准备申请公派留学,他就没有太多时间去做实验验证,直到参加了联合培养项目,于2016年10月到美国明尼苏达大学双城分校,他才真正地开始深入研究。

  在明尼苏达大学双城分校,卓中流师从Zhi-li Zhang教授开展研究工作。巧的是,在这里他再次接触到了用“生物基因序列”来做“流量识别”的文章,于是,他更加坚定了自己的想法:生物基因序列的方法,一定可以用来识别网站指纹。

  从2016年10月到2017年2月,卓中流只专注这一件事情。第一个难题就是:把“生物基因序列”方法用到网站指纹识别上的理论依据何在?在张小松教授的指点下,卓中流把目光投向生物医学领域。

  “查找文献的过程还是很艰难的,因为我没有太多生物学的知识,只能一点一点地查找关键的理论。”他说,从高中毕业后就没有再摸过生物学的课本。没想到这么多年后还要“朝花夕拾”。

  查询了大量资料后,他将一些生物学的理论知识融入了论文当中。Zhi-li Zhang教授也给予了很多指导,并提出修改意见,还帮他修改了论文的introduction。

插图01.png

  如上图所示,用户首先选择一个暗网来代理其流量。然后攻击者被动地在用户和暗网入口之间检测网络流量。值得注意的是,攻击者不能够修改链路上的数据包,也不能够解密数据包。攻击者收集到用户流量后会与之前已知流量特征进行对比(特征包括数据包大小,数据包到达间隔时间,总共传输时间等)。最终攻击者找到与该流量最佳匹配的数据流记录,该流量记录正好是用户之前访问目标网站所产生流量。如此一来,攻击者便获知到用户访问暗网目标,达到追踪暗网的目的。

插图02.png

  假设A.com只有4个超级链接,如上图,其中2个为内部链接(即A.com网站内部的跳转链接),另外2个为外部链接(即从A.com跳转到其他网站或与A.com网站相关的链接)。这种隐藏的链接关系,可以被利用来增加对A.com的识别效果,使得更容易识别A.com。

实验验证:简直是苦行僧的修行

  打好了理论基础,只是研究的“前奏”,更加艰苦的工作其实还在后面。

  2017年2月,卓中流完成初稿后,立即把论文投给了信息安全领域顶级期刊《IEEE Transactions on Information Forensics and Security》。投稿后,他其实已经做好了“大修”的准备。到了5月中旬,初审意见回复,审稿人建议卓中流补充实验和数据以便更好地说明观点。卓中流立即按照意见进行修改。

  补充实验和数据的过程,他简直像是一个修行的“苦行僧”:他用网络“爬虫”访问了1000多个网站,每个网站至少爬取20次以上;在几万次程序运行中,他还要解决“网络抖动”问题以及程序的bug等意想不到的情况。由于不同网站具有不同的结构,反馈的结果也大相径庭,他需要不断调整自己的程序运行规则。

  有一次,程序运行到凌晨4点突发断网,他赶紧从被窝里爬出来,去调整数据接口。这次之后,他长了个心眼,在爬取网站时每隔2个小时就去看看程序运行情况。后来,干脆在手机上专门装了一个远程控制软件,可以实时监控程序运行情况,“连吃饭时都要时不时查看手机。”

  2017年7月初,经过大修大补之后的论文发了过去;9月底,论文顺利录用。《IEEE Transactions on Information Forensics and Security》是中国计算机学会(CCF)推荐的网络安全方向仅有的三个A类顶级期刊之一,在网络安全领域期刊中排名第二,该刊2016年影响因子为4.332。

良好效果:学科交差带来意外收获

  将“基因检测”算法运用于网站“指纹”的识别,取得了意想不到的效果。在有背景噪声的情况下,采用传统的解决方案,网站的流量特征识别率会变低,无法完全反映流量特征。而卓中流在论文给出了一个识别更加稳定的算法,能够更好地匹配网站的流量特征。

  同时,传统的解决方法都只是在某个网页的超链接构建网页指纹,而他的方法能够把多个网页的超链接结合起来,构建一个更长、更详细的网站指纹,实现了从部分到整体的飞跃。这就相当于基因测序工作从“单个基因检测”一下子跃升到了“人类基因组测序”,因此,它能更加真实地显现用户的访问路径。

  据了解,这项流量特征识别技术除了能在网站指纹方面进行使用外,同样能用于对病毒的防护,因为它可以给病毒建立特征序列和“基因图谱”,从而能够很高效地撕下电脑病毒的伪装,防止病毒“蒙混过关”。未来,这种方法还可能在网络攻防中有所建树,尤其是随着互联网已经越来越深入地渗透到社会的方方面面,这项技术也会在我们的生活中起到越来越重要的作用。

  “交叉学科研究确实让人受益匪浅!”卓中流说,以开放的态度吸收借鉴其他领域的智慧,可以让我们有更加宽广的学术视野,让我们的思维变得更加“活”起来。


  论文链接:http://ieeexplore.ieee.org/document/8067534/


编辑:罗莎  / 审核:林坤  / 发布:陈伟