且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《中国人工智能学会通讯》——8.38 文献统计分析

更新时间:2022-10-02 20:20:41

8.38 文献统计分析

基本信息统计分析在软件工程领域,演化算法得到了广泛的应用。图 3 为基于搜索的软件工程领域从 1992—2015 年各年发表文章数的统计情况。从图中可以看出,从1992 年开始,各年发表的文章数量整体呈现上升趋势,并且在最近几年趋于稳定。《中国人工智能学会通讯》——8.38 文献统计分析
如表 1 所示,在筛选 949 篇文献中使用次数最多的 6 种演化算法分别是遗传算法(GeneticAlgorithm)、遗传编程 (Genetic Programming)、模拟退火算法(Simulated Annealing)、蚁群算法(Ant Colony Optimization)、 爬 山 算 法(HillClimbing) 以 及 粒 子 群 算 法(Particle SwarmOptimization)。 其 中,Genetic Algorithm 出现次数最多且远远高于其他算法,说明 GeneticAlgorithm 在基于搜索的软件工程领域有着十分重要的地位。但演化算法种类繁多,且原理不尽相同,因此针对不同的问题研究者采用了丰富的演化算法以解决软件工程问题。《中国人工智能学会通讯》——8.38 文献统计分析
经统计,在筛选出的 949 篇演化计算相关文章,作者共计 1 337 人,学术机构共计 444 个,国家共计 50 个。图 4 展示了前十名高产作者的信息,从图中可以看出 Mark Harman 的文章数为 69 篇,远远高于其他作者;排名在第二、三位的作者为 AndreaArcuri 和 Xin Yao,分别发表文章 33 篇和 28 篇。因此在面向软件工程的演化算法研究中,主要有两类比较活跃的群体,第一类为主要从事演化计算的研究工作,并把研究成功应用于软件工程的研究者,如 Xin Yao 等;第二类为在软件工程领域引入已有的成熟的演化算法的研究者,如 Mark Harman 等。《中国人工智能学会通讯》——8.38 文献统计分析
在学术机构统计方面,本文在表 2 中列出发表文章数最多的十个学术机构的信息。由于每篇论文的作者众多,本文只统计第一作者所在的学术机构。从表中可以看出,排名前十的学术机构发表的文章数均超过 10 篇,而且发表文章数排在前两名的机构 University College London 和 University ofYork 发表文章超过 20 篇。《中国人工智能学会通讯》——8.38 文献统计分析
在国家信息方面,图 5 列出了第一作者所属国家发表论文的排名情况。从图中可以看出,发表文章数排在前四名的国家为英国、美国、中国和印度,它们发表文章数量之和已经接近所有国家发表文章总数的一半,这说明在基于搜索的软件工程领域,特别是利用已有的演化算法或改进的演化算法解决软件工程问题方面,这四个国家处于世界领先水平。同时还可以看出,排在前十名的国家发表文章的数量之和已经接近所有国家发表文章总数的四分之三。《中国人工智能学会通讯》——8.38 文献统计分析
接下来本文对所调研的文献的出版机构进行统计。图 6 列出了发表数排在前十名的期刊和会议名称。可以看出,这 10 个期刊和会议均发表了超过 10篇基于搜索的软件工程文章,其中排名第一的会议GECCO 发表文章超过了 100 篇,是唯一一个发表文章数超过 100 篇的出版机构。可以看出,基于搜索的软件工程不仅在软件工程领域迅速发展,也在演化算法的相关主流会议上发表了大量的研究成果。《中国人工智能学会通讯》——8.38 文献统计分析
最后本文进行关键词统计分析。表 3 给出了使用次数最多的 10 个关键词。从表中可以看出,出现次数最多的 10 个关键词可以分为两个类别,Genetic Algorithm、Genetic Programming、Simulated Annealing、Ant Colony Optimization等代表文章中用到的算法,而 Software Testing、Software Quality、Test Data Generation、FitnessFunction、Cost、Software Maintenance 则 代 表不同的研究方向。其中,出现次数最多的两个关键词 Genetic Algorithm 和 Software Testing 远 远 高于其他关键词的出现次数,因此可以认为 GeneticAlgorithm 是基于搜索的软件工程领域应用最广泛的算法;而在不同的研究方向上,软件测试是基于搜索的软件工程领域中最活跃的研究方向。《中国人工智能学会通讯》——8.38 文献统计分析
同时在图 7 中给出了出现次数最多的 5 个关键词历年出现次数的变化情况。这些关键词基本都呈现了大体相同的走势,而且与历年来该领域发表文章数的走势基本吻合。《中国人工智能学会通讯》——8.38 文献统计分析

影响力分析
本文从文章影响力和作者影响力两方面对面向软件工程的演化算法进行研究。

对于文章影响力,主要分析文章的引用情况和NCII 指数(Normalized Citation Impact Index) [7] 。其中文章的引用数是衡量这篇文章影响力的最直接的标准,但考虑到发表时间较早的文章通常容易被更多的文章所引用,本文同时分析了文章NCII指数,NCII 指数的公式为《中国人工智能学会通讯》——8.38 文献统计分析
表 4 和表 5 分别列出引用数排在前十名和 NCII指数排在前十名的文章。引用数排在前十名的文章被引用次数均超过了 300 次,而 NCII 指数前十名的文章的 NCII 指数也均超过了 30,其中引用数排在前两名的文章其NCII指数也是前两名。有趣的是,与关键词分析的结果类似,排在前两名的文章分别和软件测试与 Genetic Algorithm 有关。《中国人工智能学会通讯》——8.38 文献统计分析
对于作者影响力,主要分析了作者所发表相关论文的引用数。表 6 给出了引用数排在前十名的作者信息。可以看出这些作者的引用数均超过了1 000 次,可以从一个侧面反映在软件工程领域应用进化算法得到了研究者的普遍关注。

《中国人工智能学会通讯》——8.38 文献统计分析