我写了一篇研究论文,表明将顺序计算融合到单个 WebGPU 计算着色器调度中的性能显着优于基于框架的 GPU 计算:。
– Acrobot-v1 上的 PyTorch CUDA (Tesla T4) 的性能提高了 223 倍 – 在 1,500 步的金融模拟中,性能提高了 PyTorch CUDA 的 94 倍 – 使用 lax。
scan+vmap 实现了 JAX GPU 的 7。
2 倍 – 运行 Chrome 的笔记本电脑击败了运行 PyTorch 的数据中心 GPU。
由 /u/Entphorse 提交 [链接] [评论]。
来源:Reddit Programming










