T-GPS在一台电脑上处理一个有万亿边的图表

放大字体  缩小字体 2021-05-10 18:06  浏览次数:
T-GPS processes a graph with trillion edges on a single computer?

韩国科学技术研究院的一个研究小组开发了一种新技术,可以处理大规模的图算法,而不需要将图存储在主存储器或磁盘上。这款名为T-GPS(万亿尺度图形处理模拟)的软件由韩国科学技术学院计算学院的Kim Min-Soo教授开发,它可以用一台计算机处理具有一万亿边的图形。

图被广泛用于表示和分析社会网络、商业智能、生物学和神经科学等许多领域中的现实世界对象。随着图形应用程序数量的快速增长,开发和测试新的图形算法变得比以往任何时候都更加重要。如今,许多工业应用需要一个图算法来处理一个大规模的图(例如,一万亿边)。因此,当开发和测试图算法时,例如针对大规模图,通常使用合成图代替真实图。这是因为共享和利用大规模的真实图是非常有限的,因为它们是专有的,或者实际上不可能收集。

通常,图形算法的开发和测试是通过以下两步方法完成的:生成和存储图形,以及使用图形处理引擎在图形上执行算法。

第一步是生成合成图并将其存储在磁盘上。合成图的生成通常采用基于参数的生成方法或图的升级方法。前者提取少量能捕获给定实图某些性质的参数,并生成带有这些参数的合成图。后者将一个给定的实图放大到一个更大的图,以便尽可能地保留原实图的性质。

第二步将存储的图加载到图处理引擎(如Apache GraphX)的主存中,并在引擎上执行给定的图算法。由于图的大小太大,无法容纳单个计算机的主内存,所以图引擎通常运行在几十台或数百台计算机组成的集群上。因此,传统两步法的成本非常高。

该研究小组解决了传统两步法的问题。它不生成和存储大规模合成图。相反,它只是将初始的小的真实图形加载到主存中。然后,T-GPS在小实图上处理图算法,就好像应该从实图生成的大规模合成图存在于主存储器中一样。算法完成后,T-GPS返回与传统两步方法完全相同的结果。

T-GPS的关键思想是只生成算法需要动态访问的合成图部分,并修改图形处理引擎,将动态生成的部分识别为实际生成的合成图部分。

研究团队表明,T-GPS可以使用一台计算机处理1万亿边的图形,而传统的两步方法只能使用11台相同规格的计算机集群处理10亿边的图形。因此,T-GPS在计算资源方面比传统方法高出10,000倍。该团队还显示,T-GPS算法的处理速度比传统方法快43倍。这是因为T-GPS没有网络通信开销,而传统方法有很多计算机之间的通信开销。

Kim教授认为,这项工作将对IT行业产生重大影响,因为几乎每个领域都在利用图形数据,他补充说:“T-GPS可以显著提高开发新图形算法的规模和效率。”

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心