S´ebastien Bubeck,微软研究院。
Ronen Eldan,微软研究院。
Allie Del Giorno,微软研究院。
Suriya Gunasekar,微软研究院。
我们继续研究由 TinyStories(一个可以产生连贯英语的 1000 万参数模型)发起的基于 Transformer 的小型语言模型的威力,以及 phi-1(一个 13 亿参数模型,Python 编码性能接近最先进的模型)的后续工作。
5 的新 13 亿参数模型,其在自然语言任务上的性能可与大 5 倍的模型相媲美,并在更复杂的推理任务(例如小学数学和基础编码)上超越大多数非前沿法学硕士。
来源:HackerNoon











