资讯

基于全互联(FC8)拓扑的高效通信算法,可大幅降低通信延迟。全互联拓扑中GPU两两互连,在All Reduce场景中可以把其他GPU的数据一次性拿过来,理论上FC8算法相比Ring算法,7步通信可变成1步完成。在单机8卡All ...