ChatGPT 的原理可以用浅显的语言逐层说明如下:
首先,它获取与迄今为止的文本相对应的 token 序列,并找到表示它们的嵌入(即一组数字的数组)。
然后,在这个嵌入上进行操作,以“标准神经网络方式”,值“逐层流动”到网络的连续层中,从而生成一个新的嵌入(即一个新的数字数组)。
接着,从这个数组的最后一部分生成一个大约有 50,000 个值的数组,这些值将变成不同可能的下一个 token 的概率。
关键是,这个流程的每个部分都是由神经网络实现的,其权重由端到端的网络训练确定。
此外,您还可以通过以下资源更深入地了解:
视频:
《ChatGPT 诞生记:先捞钱,再谈理想|OpenAI 翻身史》,林亦 LYi 讲解,
《【渐构】万字科普 GPT4 为何会颠覆现有工作流》,YJango 讲解,
《终于有人把 chatGPT 说清楚了——全网最深入浅出的 chatGPT 原理科普》,新石器公园讲解
文章:
《ChatGPT 中,G、P、T 分别是什么意思?》,
《大白话聊 ChatGPT》,逐字稿:
2024-09-18