直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
知名的视频大模型都有哪些
以下是一些知名的视频大模型: InstructBLIP:基于预训练的 BLIP2 模型进行训练,在 MM IT 期间仅更新 QFormer。通过引入指令感知的视觉特征提取和相应的指令,能够提取灵活多样的特征。 PandaGPT:是一种开创性的通用模型,能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 PaLIX:使用混合 VL 目标和单峰目标进行训练,包括前缀完成和屏蔽令牌完成,对于下游任务结果和在微调设置中实现帕累托前沿有效。 VideoLLaMA:引入了多分支跨模式 PT 框架,使 LLM 能够在与人类对话的同时处理给定视频的视觉和音频内容,使视觉与语言以及音频与语言保持一致。 视频聊天 GPT:专门为视频对话设计的模型,能够通过集成时空视觉表示来生成有关视频的讨论。 Shikra:Chen 等人介绍的一种简单且统一的预训练 MMLLM,专为参考对话(涉及图像中区域和对象的讨论的任务)而定制,展示了值得称赞的泛化能力,可以有效处理看不见的设置。 DLP:提出 PFormer 来预测理想提示,并在单模态句子数据集上进行训练,展示了单模态训练增强 MM 学习的可行性。 可灵:快手于 2024 年 6 月 6 日发布的视频大模型,能生成超过 120 秒 1080P 视频,模拟真实物理特性,准确建模复杂运动场景,画面连贯,动作流畅,细节真实,支持用户输入控制信息,丰富内容控制能力,采用类 Sora 的 DiT 结构,用 Transformer 代替卷积网络,自研 3D VAE 网络提升视频重建质量。 Flamingo:代表了一系列视觉语言模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。 BLIP2:引入了资源效率更高的框架,包括用于弥补模态差距的轻量级 QFormer,实现对冻结 LLM 的充分利用,利用 LLM 可以使用自然语言提示进行零样本图像到文本的生成。 LLaVA:率先将 IT 技术应用到 MM 领域,为解决数据稀缺问题,引入了使用 ChatGPT/GPT4 创建的新型开源 MM 指令跟踪数据集以及 MM 指令跟踪基准 LLaVABench。 MiniGPT4:提出了一种简化的方法,仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐,能够复制 GPT4 所展示的功能。 mPLUGOwl:提出了一种新颖的 MMLLMs 模块化训练框架,结合了视觉上下文,包含一个名为 OwlEval 的教学评估数据集。 XLLM:陈等人扩展到包括音频在内的各种模式,并表现出强大的可扩展性。利用 QFormer 的语言可迁移性,成功应用于汉藏语境。 VideoChat:开创了一种高效的以聊天为中心的 MMLLM 用于视频理解对话,为该领域的未来研究制定标准,并为学术界和工业界提供协议。
2024-10-21
高中生如何运用AI辅助学习
对于高中生运用 AI 辅助学习,以下是一些方法和建议: 英语学习: 1. 智能辅助工具:利用如 Grammarly 这样的 AI 写作助手进行英语写作和语法纠错,提升英语表达和写作能力。 2. 语音识别和发音练习:使用如 Call Annie 这样的语音识别应用进行口语练习和发音纠正,获取实时反馈和建议。 3. 自适应学习平台:通过如 Duolingo 这样的自适应学习平台,借助 AI 技术为自己量身定制学习计划,获取个性化的英语学习内容和练习。 4. 智能导师和对话机器人:利用如 ChatGPT 这样的智能对话机器人进行英语会话练习和对话模拟,提高交流能力和语感。 数学学习: 1. 自适应学习系统:使用如 Khan Academy 这样的自适应学习系统,结合 AI 技术获得个性化的数学学习路径和练习题,实现精准推荐。 2. 智能题库和作业辅助:借助如 Photomath 这样的智能题库和作业辅助工具,通过图像识别和数学推理技术获取数学问题的解答和解题步骤。 3. 虚拟教学助手:使用如 Socratic 这样的虚拟教学助手,利用 AI 技术解答数学问题、获取教学视频和答疑服务,促进对数学知识的理解和掌握。 4. 交互式学习平台:参与如 Wolfram Alpha 这样的交互式学习平台的数学学习课程和实践项目,利用 AI 技术进行数学建模和问题求解。 此外,教育科技领域中,AI 还能为大众大规模部署个性化的学习计划,提供“口袋里的老师”,理解独特需求并回答问题或测试技能。例如,Speak、Quazel 和 Lingostar 正在做 AI 驱动的语言教学,能实时交流并给予发音或措辞反馈。Photomath 和 Mathly 能指导学生解决数学问题,PeopleAI 和 Historical Figures 能通过模拟与杰出人物的聊天教授历史。学生们在作业中也能利用如 Grammarly、Orchard 和 Lex 这样的工具提升写作水平,Tome 和 Beautiful.ai 能协助创建演示文稿。 需要注意的是,即便 AI 能完成某些任务,也不意味着我们就不再去做,有些任务本身具有乐趣和价值,能让我们以个性化的方式展现自我。同时,从学术角度看,使用低技术工具和老式策略有时能促进更深入的学习,比如手写笔记能帮助我们更好地记住学习内容。
2024-10-21
高中辅导线上学习哪个好ai有哪些平台
以下是关于高中辅导线上学习以及学习 AI 的相关信息: 高中辅导线上学习平台:目前没有明确针对高中辅导线上学习的特定 AI 平台推荐。 学习 AI 的途径和方法: 1. 编程语言学习:从 Python、JavaScript 等编程语言入手,学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打基础。 2. 尝试使用 AI 工具和平台:可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。也可以探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识:了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等,学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与实践项目:参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注前沿动态:关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展,思考其对未来社会的影响。 用 AI 进行英语和数学学习: 英语学习: 1. 利用智能辅助工具如 Grammarly 进行写作和语法纠错。 2. 使用语音识别应用如 Call Annie 进行口语练习和发音纠正。 3. 借助自适应学习平台如 Duolingo 获得个性化学习内容和练习。 4. 与智能对话机器人如 ChatGPT 进行会话练习和对话模拟。 数学学习: 1. 使用自适应学习系统如 Khan Academy 获得个性化学习路径和练习题。 2. 利用智能题库和作业辅助工具如 Photomath 获取数学问题的解答和解题步骤。 3. 借助虚拟教学助手如 Socratic 解答数学问题、获取教学视频和答疑服务。 4. 参与交互式学习平台如 Wolfram Alpha 的数学学习课程和实践项目。 新手学习 AI: 1. 了解基本概念:阅读相关入门文章,熟悉术语和基础概念,了解主要分支及联系。 2. 开始学习之旅:在特定的入门课程中学习生成式 AI 等基础知识,推荐李宏毅老师的课程,通过在线教育平台按自己节奏学习。 3. 选择感兴趣模块深入:根据兴趣选择特定模块,如图像、音乐、视频等,并掌握提示词技巧。 4. 实践和尝试:实践巩固知识,尝试使用各种产品并分享作品。 5. 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解工作原理和交互方式。
2024-10-21
通过ai建立游戏npc
以下是关于通过 AI 建立游戏 NPC 的相关信息: Inworld AI 是一家专注于游戏和人工智能的初创公司,其开发的 Inworld 角色引擎可以将游戏的 NPC 进行 AI 化并集成到游戏中。该引擎超越了大语言模型,增加了可配置的安全性、知识、记忆、叙事控制、多模态等功能,能使 NPC 自我学习和适应,具有情绪智能。 Inworld 的角色引擎具有以下特点和功能: 1. 可以创建具有独特个性和上下文意识的角色,无缝集成到实时应用中,内置优化规模和性能的功能。 2. 让 AI 非玩家角色(NPC)通过模拟人类的全方位沟通方式(包括语言、手势、表情和动作)来表达个性。 3. 开发了 Character Brain(性格大脑)引擎,使 AI NPC 能够学习和适应,具有情绪智能的关系导航能力,具有记忆和回忆能力,并能够自主地发起目标,执行动作并遵循自己的动机。 4. 功能包括: 目标和行动:使用定义的触发器、意图识别和动机来触发角色对玩家行为的反应,并在游戏中驱动交互。 长期记忆:角色以类似人类的记忆功能操作,从闪存和长期记忆中检索信息,创建吸引玩家回归的引人入胜的体验。 个性:通过使用自然语言创建不同的个性,添加关于角色背景故事、动机和缺点的丰富细节,使角色生动起来。 情绪:Inworld 角色能够对与用户的互动表达情绪,情绪可以映射到动画、目标和触发器。 实时语音:使用内置的语音设置进行最小延迟,并配置角色的性别、年龄、音调和说话速度。或者,使用来自 Eleven Labs 的第三方服务创建自定义和克隆语音。 Inworld AI 的"Contextual Mesh"功能还提供了以下方式来定制 AI 非玩家角色(NPC)的行为和知识: 1. 可配置的安全性:可以配置 NPC 的对话方式,在诸如亵渎、暴力、成人话题、酒精、药物使用、政治和宗教等话题上有一定灵活性。 2. 知识:可以输入"个人知识"来控制他们的角色应该知道或不应该知道的信息,使用"共享知识"来定义多个角色拥有的知识,如共享的传说、世界背景等。 3. 玩家档案:收集关于玩家的信息,并允许 NPC 在形成互动时考虑到这些信息。 4. 关系:通过配置每个角色的关系流动性设置,让玩家有能力与 NPC 建立关系。 5. 第四堵墙:确保角色只从他们的世界中存在的知识中获取信息,创建更沉浸的故事讲述和游戏体验。 Inworld 可以与各种游戏引擎(如 Unity、Unreal Engine 等)和其他游戏开发工具无缝对接,使得开发者可以更容易地在他们的游戏中引入 AI NPC。Inworld AI 还可以帮助品牌能够创建交互性强的 AI 角色,无需编码。 此外,电子游戏与人工智能的结合有着广泛的可能,包括玩家建模、辅助设计、代码辅助和代码自动生成等等。其中与游戏直接相关的应用主要包括构建游戏中的智能体、构建玩游戏的智能体、程序化内容生成(Procedural Content Generation,PCG)。“构建游戏中的智能体”是指构建游戏的非玩家角色(Nonplayer character),也就是常说的 NPC,包括构建智能对象,创建其移动、寻路、攻击等行为,以及对话等交互行为。
2024-10-21
克隆音色
以下是一些关于克隆音色的相关信息: 产品推荐: PlayHT:https://play.ht/studio/ ,包含预设音色,可免费克隆一个音色,若想生成多个,删除上一个音色即可做新的。 Elevenlabs:https://elevenlabs.io/app ,包含预设音色,新用户 1 美元开通一个月会员,可使用克隆音色。 魔搭社区:https://www.modelscope.cn/home ,是一个模型开源社区及创新平台,由阿里巴巴通义实验室联合 CCF 开源发展委员会发起,包含各种声音模型,有开发经验的朋友可使用。 Dubbingx:https://dubbingx.com/ ,免费克隆音色,有桌面版,Mac、Window 均可用。 魔音工坊:https://www.moyin.com/ 对口型相关: Runway:静态图片+音频文件,可生成对口型视频;动态视频+音频文件,可生成对口型视频,但需要消耗 20 点。 Pika:静态图片+音频文件,可生成对口型视频。 其他: 剪映:不能使用预录制的音频,只能现场朗读随机提供的文字材料收集音色信息,1 积分=2 个字,消耗积分生成配音,会员每个月赠送 1200 积分。 GPTSoVITS:开源 AI 克隆音色项目,部署难度较高,但效果很好,完整的教程和测评请查看:https://space.bilibili.com/5760446 。 Uberduck:克隆效果怪怪的,附官方使用指南:https://docs.uberduck.ai/guides/gettingstarted 。 ElevenLabs 推出全自动化的 AI 配音或视频翻译工具,可上传视频或粘贴视频链接,能全自动将视频翻译成 29 种语言,并克隆原视频声音。 豆包的音色模仿,读约 20 个字的句子,5 秒可生成相似音色,之后可用自己声音读生成的文字内容。 剪映也有新的声音克隆功能,效果不错。
2024-10-21
数字员工
数字员工是一种通过 AI 智能体实现的为个人提效的方式。在 WaytoAGI 的分享中,大聪明(赛博禅心作者)认为,AI 智能体就如同个人拥有的数字员工,您可以不断向其下达任务,就像老板给员工下达任务一样。每个数字员工有不同的特点和能力,下达任务时目标是否清晰以及能否被理解很重要,这考验写提示词的能力。数字员工会基于对目标的理解,按照计划不断尝试完成,并适时寻求反馈。例如句子互动就在打造大模型驱动的领先数字员工。
2024-10-21
海螺AI相关的咨询
以下是关于海螺 AI 的相关信息: 海螺 AI 的视频模型具有多种强大功能: 能看懂图能听懂指令:MiniMax 视频模型可以准确识别用户上传的图片,生成的视频在形象保持上与原输入图像高度一致,光影、色调能完美嵌入新场景设定,还能理解超出图片内容之外的文本,解构指令框架和深层语义并在视频生成中整合,实现“所写即所见”。 不依靠特效模板的惊艳特效:只依靠模型综合能力就能实现顶级影视特效,用户可充分发挥想象力创作丰富多变的电影级视频,如 CG 合成、场景变化、碎片化、拟人化等特效与玩法。 细腻表情呈现提升感染力:人物能在 5 秒钟内实现从开怀大笑到掩面哭泣等丰富表情,表情控制力不输专业演员。 2000 字提示词更精准调控:近期上线了提示词优化功能,对于专业创作者开放 2000 字的提示词空间,让创作更加精准。 在热门产品中的表现: 出场视频演示非常惊艳,简单测试下来发现画面清晰度、画面表现力等均好过可灵 1.0。 在近期的 Vbench 排行榜中,获得了 16 个维度综合评分第一名。 目前仅支持 txt2vid 方案。 网页版访问:https://hailuoai.com/video
2024-10-21
国外可以自动生成ppt的ai网站或ai软件
以下是一些国外可以自动生成 PPT 的 AI 网站或软件: Gamma:在各种交流群中被频繁推荐,以卓越的性能和用户体验赢得广泛认可。即使是免费版本,也能生成质量很高的 PPT。从个人使用体验来看,其在内容组织、设计美观度和整体专业感方面都表现出色。网址:https://gamma.app/ 此外,还有一些其他好用的 AI PPT 工具: 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出,允许用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素。网址:https://www.xdesign.com/ppt/ Mindshow:一款 AI 驱动的 PPT 辅助工具,提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/
2024-10-21
自动生成ppt
以下是几种使用 AI 工具自动生成 PPT 的方法: 1. Process ON: 网址:https://www.processon.com/ 输入大纲和要点: 导入大纲和要点: 手动复制,相对比较耗时间。 导入方式: 1. 复制最终大纲的内容,到本地的 txt 文件后,将后缀改为.md。如果看不见后缀,可以自行搜索开启后缀。 2. 打开 Xmind 软件,将 md 文件导入 Xmind 文件中。 3. Process ON 导入 Xmind 文件。以导入方式新建思维导图,选择准备好的 Xmind 文件,导入成功。 输入主题自动生成大纲和要求:新增思维导图,输入主题,点击 AI 帮我创作,生成结束。 选择模版并生成 PPT:点击下载,选择导入格式为 PPT 文件,选择模版,再点击下载。如果喜欢用 Process ON 的小伙伴,没有会员,可以某宝买个一天会员。 2. WPS AI:先让 GPT4 生成 PPT 大纲,然后把大纲导入到 WPS 当中,启用 WPS AI 一键生成 PPT。为了让 PPT 更有灵动性和观感,可以让 chatPPT 添加一些动画,最后手动修改一些细节,比如字体、事实性错误等。 3. 爱设计: 网址:国内网站,不需要魔法。输入地址:https://ppt.isheji.com/?code=ysslhaqllp&as=invite,进行注册和登录。 输入大纲和要点: 导入大纲和要点: 1. 选择文档秒变 PPT 2. 选择导入本地大纲。 输入主题自动生成大纲和要求:输入主题,点击开始生成,自动产生大纲。 选择模版并生成 PPT:点击生成 PPT,应用模版,生成中,生成后,点击编辑。 4. MindShow: 网址:国内网站,不需要魔法。地址:https://www.mindshow.fun//home 输入大纲和要点: 导入大纲和要点:请准备好的大纲进行导入。 输入主题自动生成大纲和要求:输入主题,AI 生成大纲,扩写部分章节,扩写后的内容。 选择模版并生成 PPT 导出
2024-10-21
科学问题二:XXX(小标题) 问题挑战:如何通过构建合理的先验知识或模型假设,刻画出数据中的可变性?如何利用从少量样本中提取到的变化信息来预测未见数据的表现? XXX XXX(问题挑战一的方法) XXX)问题挑战二的方法) 请将XXX补充完整,重点在预测,如何刻画和利用数据分布的“变化性”
以下是为您补充完整的内容: 对于如何通过构建合理的先验知识或模型假设,刻画出数据中的可变性,以及如何利用从少量样本中提取到的变化信息来预测未见数据的表现,我们可以参考以下方法: 在准备 LLM 数据方面,对于制作 LLM 微调数据集,首先获取文本格式非结构式和网络式结构式的数据。对于 QA 数据集,主要依靠已有的大语言模型生成,根据不同文本设定不同的提示词以获取尽可能多且信息量丰富的 QA。先对文件中的文本进行切割,将每一大部分放进一个约 200 字的 txt 文件里,然后设定提示词模板。例如对于公司产品手册,模板可以是:“你是一个聪明的 xxx 公司的 xxx 产品的产品经理。给你一段 xxxxx 有限公司 xx 产品相关的文本,你必须依据文本想出十个不同的问题和这十个问题对应的答案。你想出的问题可以被用来测试公司内部 xxx 职员的专业能力。你想出的问题可以是使用公司产品的用户会想到的问题。你想出的问题和答案必须和所给文本相关。你回答得答案必须可以让使用产品的用户理解。当你想出问题和答案后,你必须用以下格式回复:```
2024-10-21