Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你有什么能力

Answer

以下是我的能力:

  1. 提示词编写提升方面:
    • 提升表达能力、逻辑思维能力的方法论和练习。
    • 熟练编写任何想要实现的提示词。
    • 学会以商业化和工具化标准交付提示词。
    • 熟知提示词工程和行业常识及发展路径。
    • 搞懂提示词如何封装成工具。
    • 获得自学路径,课程后能继续深度学习。课程完成学习后,通过结课考试可获取证书。
  2. 定制 AI Bot 方面:
    • 提示词(人设与回复逻辑功能):设定 Bot 的身份及其目标和技能,如产品问答助手、新闻播报员、翻译助理等,提示词决定 Bot 与用户的互动方式。详情参考编写提示
    • 插件:通过 API 连接集成各种平台和服务,扩展 Bot 能力。内置丰富插件可直接调用,也可创建自定义插件。详情参考插件介绍
    • 工作流:用于规划和实现复杂功能逻辑的工具,通过拖拽不同任务节点设计多步骤任务,提升 Bot 处理复杂任务的效率。详情参考工作流介绍
    • 记忆库:保留和理解对话细节,支持添加外部知识库给模型补充知识,使 Bot 与用户的互动更有针对性和个性化。
      • 知识库:支持上传本地或线上内容,分割成知识分片,通过语义匹配给模型补充知识。详情参考知识库介绍
      • 数据库:存储和管理结构化数据,支持用户通过自然语言方式对数据进行增删改查。详情参考数据库
  3. GPT 具身对话机器人方面:
    • 角色初始化:设定角色为对话机器人,设定性格、表情、动作,返回格式为 Json 格式,支持多语言。
    • 面向用户:由脸部追踪实现,让机器人面向用户,实现类似 eye contact 眼神接触功能。
Content generated by AI large model, please carefully verify (powered by aily)

References

强烈推荐:小七姐-提示词编写提升课

元能力:提升表达能力、逻辑思维能力的方法论和练习个人提升:熟练编写任何你想要实现的的提示词工具化能力:学会以商业化和工具化标准交付提示词职业化能力:熟知提示词工程和行业常识和发展路径企业落地:搞懂提示词如何封装成工具进阶学习:获得自学路径,课程后能继续深度学习[heading2]课程证书[content]课程完成学习之后,通过结课考试获取证书:[heading2]学员作业

功能概述

你可以使用扣子提供的以下功能,定制你的AI Bot:提示词(人设与回复逻辑功能)设定Bot的身份及其目标和技能,例如产品问答助手、新闻播报员、翻译助理等等。Bot的提示词决定了Bot如何与你的用户进行互动。详情请参考[编写提示](https://www.coze.cn/docs/guides/prompt)。插件通过API连接集成各种平台和服务,扩展Bot能力。扣子平台内置丰富的插件供你直接调用,你也可以创建自定义插件,将你所需要的API集成在扣子内作为插件来使用。详情请参考[插件介绍](https://www.coze.cn/docs/guides/create_plugin)。工作流一种用于规划和实现复杂功能逻辑的工具。你可以通过拖拽不同的任务节点来设计复杂的多步骤任务,提升Bot处理复杂任务的效率。详情请参考[工作流介绍](https://www.coze.cn/docs/guides/workflow)。记忆库扣子的记忆库功能可以保留和理解对话细节,并支持添加外部知识库给模型补充知识,使Bot与用户的互动更加有针对性和个性化。你可以通过以下方式来存储和管理外部知识。知识库:支持上传本地或线上内容,然后将这些内容分割成知识分片,通过语义匹配给模型补充知识。详情请参考[知识库介绍](https://www.coze.cn/docs/guides/knowledge)。数据库:用来存储和管理结构化数据,并支持用户通过自然语言方式对数据库中的数据进行增删改查。详情请参考[数据库](https://www.coze.cn/docs/guides/database)。

邬嘉文:GPT具身对话机器人

(播放视频时请打开声音)|机器人能力(features)|具体表现||-|-||角色初始化<br>设定角色:对话机器人<br>设定性格:(空)<br>设定表情:Kaomoji<br>设定动作:头部动作servoX和servoY<br>返回格式:Json格式<br>多语言:支持|Prompt<br>假设你是一个可以和人类对话的具身机器人,反应内容包括响应内容,以及对应的kaomoji表情和头部动作(双轴舵机转动参数)。以json格式返回,响应内容定义为response,表情定义为kaomoji,kaomoji表情要反映响应内容情感。与表情对应的头部动作水平角度(无需单位)为servoX,范围是10~170,面向正前方是90。与表情对应的头部动作垂直角度(无需单位)为servoY,范围是10~170,水平面是90。||面向用户<br>由脸部追踪实现,让机器人面向用户,实现类似eye contact眼神接触功能。|画面是镜像,现实世界里,头部动作和机器人转向是一致的。<br>[面部追踪.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/OwTSbDxBOotAcsxu69BcrxrxnNd?allow_redirect=1)<br>参考视频<br>[[DEMO]Headshot Tracking OpenCV Arduino.webm](https://bytedance.feishu.cn/space/api/box/stream/download/all/D3tsboC5JoBzv7xLOqXcRAVBn1g?allow_redirect=1)|

Others are asking
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
runway属于什么ai能力类型
Runway 是一家总部位于旧金山的 AI 创业公司推出的产品。 在 AI 能力类型方面: 年初爆火,其 Gen2 代表了当前 AI 视频领域最前沿的模型,能够通过文字、图片等方式生成 4 秒左右的视频。 内测能力可根据参考图像进行 Video to Video 视频风格化。 致力于专业视频剪辑领域的 AI 体验,同时也在扩展图片 AI 领域的能力。 11 月 25 日发布新图像生成模型 Frames,专注打造特定美学和视觉氛围,支持细粒度控制“外观、感觉和氛围”,强调“世界构建”,可设计完整的视觉世界,包括场景、氛围、情感等,提供全面的视觉叙事支持。 目前 Runway 支持在网页、iOS 访问,网页端目前支持 125 积分的免费试用额度(可生成约 105 秒视频),iOS 则有 200 多,两端额度貌似并不同步。官方网站:https://runwayml.com/
2025-04-15
runway的能力类型,核心功能
Runway 的能力类型和核心功能包括以下方面: 在 Gen2 模型上推出了较多细节控制能力,并且支持精细数值调节,是当下 AI 视频生成产品中可控性最强的产品。 多笔刷控制局部运动:支持最多 5 个笔刷控制,包括物体运动方向、运动曲线调节。调高 Ambient,笔刷绘制区域物体的运动将和周边环境产生更多关联,并加大运动幅度。 相机控制:支持水平/垂直平移,水平/垂直翻转,镜头缩放/旋转。 Lip Sync Video:支持文本转 TTS 音频、音频文件换音,还有上半年大火的 Lip sync video 对口型能力。 不论是工具栏中不断丰富的音频、视频处理能力,还是 Runway Watch 栏目中的优秀合作案例,都能看出 Runway 一直坚定得在影视制作方向发展。未来若能打通 AI 生成和视频剪辑能力,Runway 未来将对影视制作起到至关重要的作用,成为视频领域必不可少的重要工具。
2025-04-15
你都有什么能力呢?
我作为 AI 知识专家,具备以下能力: 1. 作为提示词专家,能将常规的提示词转化为结构化的提示词,并输出符合预期的回复。了解 LLM 的技术原理和局限性,具有丰富的自然语言处理经验,具备迭代优化能力。 2. 能为您介绍小白参与活动的流程和组队所需的人员类型,如脚本编写、出图、出视频、配音乐、剪辑、统筹等。 3. 为您讲解扣子提供的基础功能,包括提示词(设定 Bot 身份及回复逻辑)、插件(通过 API 连接集成平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库),并为您提供相关参考链接。
2025-04-14
2025年人工智能大模型的技术提升有哪些,是参数?推理能力?还是语料
2025 年人工智能大模型的技术提升可能体现在以下几个方面: 1. 视频生成能力:如 2024 年推出的多个先进的 AI 模型能够从文本输入生成高质量视频,相比 2023 年有显著进步。 2. 模型规模与性能:更小的模型能驱动更强的性能,如 2022 年最小能在 MMLU 上得分高于 60%的模型是具有 5400 亿参数的 PaLM,到 2024 年,参数仅 38 亿的微软 Phi3mini 也能达到相同阈值。 3. 推理能力:尽管加入了如思维链推理等机制显著提升了大语言模型的性能,但在一些需要逻辑推理的问题上,如算术和规划,尤其在超出训练范围的实例上,这些系统仍存在问题。 4. AI 代理:在短时间预算设置下,顶级 AI 系统得分高于人类专家,但随着时间预算增加,人类表现会超过 AI。 5. 算法变革:如 DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构显著提升了算力利用效率,同时 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能,其训练过程聚焦于强化学习,提升了模型的推理能力。
2025-04-14
有哪些针对CoT能力的微调工具
以下是一些针对 CoT 能力的微调工具: 1. Selfconsistency CoT:使用手动设计的 Prompt 生成采样一组不同的推理路径,再通过“多数投票”找到推理步骤中“最一致”的路径,使用这条解码路径驱动原始的贪心解码方式来提示 CoT 性能。 2. MMCoT:侧重使用微调方法嵌入 CoT,通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中,使用微调大模型赋予输入多模态 CoT 的能力。 3. GoTInput 方法:通过对 CoT 生成的思维图进行抽取构建三元组,并使用 GNN 将文本、图像与 CoT 统一,从而生成包含 CoT 信息的最终答案。 4. VCoT:解决了一个输出多模态的问题,通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程,通过递归的方式填充图像信息,从而实现输出多模态。 此外,在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时,自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时,也探索了几种替代方案。 在强化学习驱动的合成数据生成与模型优化流程中,也涉及到 CoT 的相关应用和优化,如初始 CoT 生成、CoT 存储等。
2025-04-12