摘要:来在每个时钟执行一组wrap(线程束)。将每组CUDA阵列的数量从16个翻倍至32个解决了wrap的执行问题。同时SMX前端也将wrap的调度器和分配器翻倍,而寄存器堆也被翻倍到64K条来满足额外的执行单元的需要。面对芯片面积暴增的风险,SMX的PolyMorph Engine并没有也随其他部分翻倍,而是升级到了2。...
(°ο°)
来在每个时钟执行一组wrap(线程束)。将每组CUDA阵列的数量从16个翻倍至32个解决了wrap的执行问题。同时SMX前端也将wrap的调度器和分配器翻倍,而寄存器堆也被翻倍到64K条来满足额外的执行单元的需要。面对芯片面积暴增的风险,SMX的PolyMorph Engine并没有也随其他部分翻倍,而是升级到了2。
发表评论