AI 的基本运行逻辑包括以下方面:
大模型与语音技能 NLU 的差异:语音技能 NLU 是通过一系列规则、分词策略等训练而成,运作逻辑规律可观测,具有 ifelse 式逻辑性;大模型凭借海量数据在向量空间中学习知识的关联性形成,运作逻辑难以观测,脱离了 ifelse 的层面。
工作流中的应用:
代码相关:让大模型写代码,可将其输出的代码片段再输入回去让其检查准确性和结构规范性,若有两个 Agent 分别负责 Coding 和 Code Review,效果更佳。
工具利用:如 Kimi Chat 会在互联网上检索相关内容,基于检索结果总结分析并给出结论,其他工具为大模型在获取、处理、呈现信息上做额外补充。
任务规划:Agent 通过自行规划任务执行的工作流路径,面向简单或线性流程运行,例如先识别姿势,再利用相关模型合成新图像,最后进行语音合成输出等。
2024-09-07