即可将网页分享至朋友圈
“幂律分布”是解释世界的一把金钥匙,它在物理学、生物学、生态学、计算机科学、人口统计学与社会科学、经济与金融学等众多领域广泛存在。从地震规模、物种数量到战争规模、单词频率、国家姓氏等分布,乃至电影所获的奥斯卡奖项数的分布等,都可以用典型的“幂律分布”来揭示其分布特征。
然而,美中不足的是,许多网络的度分布(degree distribution)无法用“幂律分布”得到完美解释。这一只只“黑天鹅”对“幂律分布”的解释能力构成了挑战。究竟有没有超越“幂律分布”的理论方法呢?这个问题在计算机学院计算智能实验室2014级博士生冯旻昱心中盘桓已久。
最近,他终于给这个问题找出了答案。在大量观测现实网络的基础上,他和其他几位研究者共同提出了一种全新的概率分布——“亚态分布”(Subnormal Distribution),用于拟合具有变量的演化网络度分布,竟然比大名鼎鼎的“幂律分布”效果更好。
目前,以冯旻昱为第一作者的研究成果《Subnormal Distribution Derived From Evolving Networks With Variable Elements》一文已经在人工智能领域著名期刊《IEEE Transactions on Cybernetics》发表。这是他在该期刊发表的第三篇学术论文。
发现问题:“幂律分布”竟然遇到了“黑天鹅”
冯旻昱从2014年就注意到一些社会网络中的“度分布”并非完全满足“幂律分布”的现象。在进一步研究中,他发现还有更多的网络的度分布(如演员的合作网等)不完全满足“幂律分布”的规律。显然,这并不是偶然的个案,而是在背后隐藏着重要的规律。
所谓“幂律分布”可以简单地理解为“具有幂律分布的数据表现为一条斜率为幂指数的负数的线”,它的图形就像一条长长的“尾巴”。它表明“绝大多数个体的尺度很小,而只有少数个体的尺度相当大”。著名的“长尾理论”就是建立在“幂律分布”统计发现的基础之上。
“幂律分布”对网络科学大有帮助。它纠正了人们认为网络是扁平化的误区,让人们发现在网络中有少数“爆发”性的节点获得了很大规模的连接,而大多数节点只有很小规模的连接。但是,让人感到疑惑的是有一些网络的特点竟然与“幂律分布”的曲线不一样。
冯旻昱意识到“这不是一个小问题,很值得深入研究!”他查阅了许多国内外文献,发现随着近年来实际网络的成比例增长,许多学者都在研究“幂律分布”的这种偏差现象,但大部分研究都尝试从现象上去解决,即用数字来拟合“幂律分布”曲线,而没有像1999年Barabasi和Albert在《Science》上提出复杂网络的连接度分布符合“幂律”形式那样,专门从理论上推导出一种概率分布。
因此,冯旻昱有点“狂妄”地开始尝试像Bababási和Albert推导“幂律分布”那样,寻找出一种新的概率分布。“当时并没有什么把握,但觉得值得冒险一试。”他说,“感觉有一种明知不可为而为之的‘悲壮’。”
勇敢尝试:像Bababási推导“幂律分布”那样求索根本性方案
要从根本上提出一种方法,而不是满足于简单地解释这个现象,在国内外都很少有人这样做过。“有时候真的不知道到底能不能做出来,甚至都不知道这条路子对不对。” 冯旻昱说,“这篇论文的一大亮点就是比较严谨的数学推导和计算,然而要做到这一点很难。”
但冯旻昱并不是一个人在战斗,求索的路上他并不孤独。在最困难的时候,他的导师、计算机学院屈鸿教授给予了许多指导和鼓励;被冯旻昱称为“我的老师的老师”的IEEE Fellow、四川大学章毅教授在数学上也给予他很多帮助,他坦承“我的数学证明风格是继承了章毅教授的。”
此外,他还找了多位不同领域的数学大牛来把关。他说,“选择不同领域的人来把关,就是为了避免同领域的人被我的思路给带进一个死胡同。”但即便有了清晰的思路,要用更加数学的方法来实现依然困难重重,他甚至一度因为无法求解积分而遇到“瓶颈”,眼看着实验结果具有稳定的收敛性却无计可施。于是,他翻阅了大量书籍,搜索各种论文,采撷灵感。
很戏剧性的是,冯旻昱无意间看到一本旧书,书中讲到一种不同于“牛顿-莱布尼兹公式”(Newton-Leibniz formula)的积分方法,即能求出含参变量常义积分问题的莱布尼茨公式,至此,积分难题迎刃而解。
下一步就是攻克“仿真”这一关了。他先选择了社会网络中的“科研合作网”和个人财富的分布做仿真,其中,在做个人财富分布的仿真时,他因数据太少而陷入了新的困扰。几经周折,他终于找到了英国公布的个人财富数据。
库思教授:“这个发现可能会成为未来复杂网络的发展方向”
2016年,冯旻昱获得了去德国洪堡大学交流的机会,他研究的问题也随之带到了德国。在这里,冯旻昱遇到了欧洲科学院院士、洪堡大学尤根·库思(Jürgen Kurths)教授。
库思教授此前做过电话网络方面的度分布研究,但也侧重于对现象的分析。因此,当他了解到冯旻昱要从理论上寻找根本性解决方案后,顿时来了兴趣。尤其是当看到冯旻昱创新性地提出“亚态分布”的思路时,他给出了高度的评价:“这个发现可能会成为未来复杂网络的发展方向。”
冯旻昱与这个“可爱的老头”在“亚态分布”的推导上做了很多交流。每当两人出现沟通障碍的时候,库思总会放慢语速甚至写下来,这一点给冯旻昱留下了深刻的印象。在修改冯旻昱的论文时,库思总是逐字逐句地琢磨,其严谨的治学精神让冯旻昱受益匪浅,也鼓励他坚持不懈地深入研究。
论文初稿终于写好,第一次审稿的周期就长达一年时间。2017年初,论文初审意见终于反馈回来,当冯旻昱看到长达十多页的审稿意见时,“感觉头都大了!”但他很快汲取审稿人的建议,进一步推敲数学推导过程乃至论文的字词句表述。
第二次审稿意见反馈后,他又找人提意见、反复斟酌修改,精益求精地打磨论文,终于在初稿的基础上改动了40%以上的内容后,其研究论文在顶级期刊《IEEE Transactions on Cybernetics》上获得发表。
亚态分布:巧解经济学上Gibrat法则的一个推论
在这篇论文中,冯旻昱发现,他提出的“亚态分布”不仅可以拟合大部分现实网络的度分布(如图1),还能拟合其他存在增量变化的不均匀分布。其数字特征可以广泛应用于不均匀数据拟合和数值分析,在网络科学、人工智能、统计学、经济学等学科领域有很高的理论和应用价值。
在拟合个人财富累积的分布数据时,“亚态分布”就体现出了极大的优势(如图2)。在过去的研究中,通常都将个人财富累积视为满足“幂律分布”,即所谓的“20/80”定律(20%的人占有80%的财富)。按照“20/80”定律,应该是社会上“穷人”最多,但实际上往往是中产阶级最多。难道“幂律分布”解释错了?
这个看似“无心插柳”的联想,却恰巧解决了经济学上的Gibrat法则的一个推论。按照Gibrat法则的推论,个人财富累积要么服从“幂律分布”,要么服从“对数正态分布”。但冯旻昱从数学上证明了,个人财富累积的分布其实是介于这二者之间的。换言之,Gibrat法则的推论其实是“亚态分布”的极端情况,在这种情况下,“亚态分布”中的参数取到极限值。
冯旻昱对于“亚态分布”理论这一堪称经典的应用,不仅证明了“亚态分布”在解释现实方面的有效性,而且证明了他坚持从理论上寻求根本性解决的道路是正确无疑的。“我喜欢用更数学的语言和方法来接近事物的本质,虽然这条路可能更加艰辛,但这条路却是我心目中最纯粹的那条路。”他微笑着如是说。
编辑:林坤 / 审核:罗莎 / 发布:林坤