[title]13.Agent相关比赛[heading1]三、活动内容[heading2]?赛道介绍|大赛赛道|图文创作赛道|实用工具赛道|互动创意赛道|<br>|-|-|-|-|<br>|参考方向方向仅供参考,欢迎更多符合赛题的创意和场景参赛|内容生成:例如,AI可以自动编写文章,然后为文章选择或生成相应的图片。图像标注:AI可以识别和理解图片内容,并为图片生成相应的文字描述图文匹配:为给定的图片找到最合适的文字描述,或为给定的文字找到最相匹配的图片。数据可视化:将复杂的数据进行可视化展示,用图表、信息图等方式进行显示,使数据解读更直观、简洁。设计辅助:例如生成LOGO,海报设计等。自动化排版:根据文本内容与结构,自动进行页面布局与美观的排版。图文识别:在借助OCR技术进行图文抓取内容后,AI能够理解并处理这些信息。新闻和社交媒体:AI可以对大量新闻和社交媒体信息进行自动编辑和汇总,生成有趣的图文摘要。艺术创作:辅助绘画、音乐创作
[title]13.Agent相关比赛[heading1]三、活动内容[heading2]?赛道介绍|大赛赛道|图文创作赛道|实用工具赛道|互动创意赛道|<br>|-|-|-|-|<br>|参考方向方向仅供参考,欢迎更多符合赛题的创意和场景参赛|内容生成:例如,AI可以自动编写文章,然后为文章选择或生成相应的图片。图像标注:AI可以识别和理解图片内容,并为图片生成相应的文字描述图文匹配:为给定的图片找到最合适的文字描述,或为给定的文字找到最相匹配的图片。数据可视化:将复杂的数据进行可视化展示,用图表、信息图等方式进行显示,使数据解读更直观、简洁。设计辅助:例如生成LOGO,海报设计等。自动化排版:根据文本内容与结构,自动进行页面布局与美观的排版。图文识别:在借助OCR技术进行图文抓取内容后,AI能够理解并处理这些信息。新闻和社交媒体:AI可以对大量新闻和社交媒体信息进行自动编辑和汇总,生成有趣的图文摘要。艺术创作:辅助绘画、音乐创作
首先,训练o1肯定会人工标注一批COT思考过程,就是说拿到一批<问题,答案>数据,通过人工把解决问题的思考过程和步骤写下来,形成<问题,思考过程(包括思考过程中出现的错误及错误修正过程),答案>。如果没有人工标注过程,那么COT里出现的:Hmm,wait,…这种,如果是纯靠LLM自己产生的,那估计LLM已经有意识了,这个概率很小,这些大概率最初来自于人工标注数据。可以用这些数据SFT一下o1初始的模型,启动模型的输出模式,让它熟悉这种表达方式,但是仅靠SFT肯定是不够的。[heading3]合成数据[content]人工标注难度大、成本高,所以人工标注的COT数据数量不会太多,人工标注的问题是可扩展性太差,优点是质量比较高;之后可以采用合成数据的模式,一种最直观的合成数据的方式就类似上面提到制作[PRM](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=PRM&zhida_source=entity)标注数据的模式:从人工标注的COT里面截取一段人工标注片段,然后使用MCTS树搜索方式去补齐后续推理过程,每个片段跑多次,有的最后答案正确有的错误,无论是正确还是错误,都可以作为合成数据来训练o1模型。如果更激进一些,对于有确定标准答案的逻辑问题,可以通过不断试错的模式直接从问题开始搜索正确答案,这里搜索到的正确答案和错误答案都可以用来训练o1模型(但是这貌似就已经是o1了?所以可能性不大)。