更好的软件算法可以显着提高有效内存效率,但前提是工作负载达到真正的硬件瓶颈。
最近的研究(例如 Google 的 TurboQuant)表明,软件可以显着降低 LLM 推理等特定工作负载的内存压力。
与此同时,整个人工智能堆栈的公司正在投资电力和芯片等物理基础设施,以维持不断增长的计算需求。
Meta 扩大了其能源战略,包括人工智能相关基础设施的主要核电协议,而 NVIDIA 仍然通过先进的芯片生产和封装与半导体道路保持联系。
这些趋势共同提出了一个更广泛的问题:如果软件可以使系统更加高效,那么在真正用尽软件优化之前我们多久升级一次硬件。
当团队过早升级硬件时,他们通常会花费更多资金而不了解真正的瓶颈。
来源:Dev.to











