「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
文生图的app
以下是一些文生图的相关信息: 大模型工具推荐:chatGPT 4.0、kimichat、智谱清言 4。 国内部分模型可以文生图,如智谱和文心。 在 Stable Diffusion 中获取大佬咒语的方法: 将照片导入,右边会自动弹出照片的信息,包括正面关键词、负面关键词等,可复制这些信息到“文生图”页面的关键词文本框中,点击生成按钮下的第一个小按钮,SD 会自动分配信息。 若导入照片后右边无信息,可用“标签器(Tagger)”生成照片的关键词。 Stability AI 推出基于 Discord 的媒体生成和编辑工具,文生图使用步骤: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。输入/dream 提示词,可选参数有五类,包括 prompt(必填项)、negative_prompt(选填项)、seed(选填项)、aspect(选填项)、model(选填项)、Images(选填项)。完成后选择其中一张。
2025-02-26
大模型训练全流程
大模型训练通常包括以下全流程: 1. 收集海量数据:如同教导孩子成为博学多才之人,要让其阅读大量书籍、观看纪录片、与人交谈,对于 AI 模型,就是收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:就像为孩子整理学习资料,AI 研究人员需要清理和组织收集到的数据,如删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:如同为孩子设计学习计划,研究人员要设计 AI 模型的“大脑”结构,通常是一个复杂的神经网络,如 Transformer 架构,这种架构擅长处理序列数据(如文本)。 4. 训练模型:如同孩子开始学习,AI 模型开始“阅读”提供的数据,通过反复阅读尝试预测句子中的下一个词,从而逐渐学会理解和生成人类语言。 此外,大模型训练还可以类比为“上学参加工作”: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 一般训练还会有以下步骤: 1. 无监督学习:模型通过分析大量文本数据,学习语言基本结构和常识,具备文本补齐能力,将人类知识向量化以获得基础语言模型。 2. 清洗出好的数据。 3. 指令微调:训练模型理解并执行具体指令,如翻译文本以回答问题,输入内容包括特定格式的指令、输入和输出。 4. 对齐过程:通过引入人类评价标准和处理特定格式要求,优化模型输出以符合人类期望,包括处理文化、道德等细节。 虽然各公司具体实现细节可能是机密,但这些步骤共同构成了构建高效、实用大语言模型的过程,最终产生的模型可能含有高达 1750 亿个参数。在开源与闭源模型的开发策略中,开源模型依赖社区贡献,闭源模型由企业投入大量资源开发,两种策略都旨在推动大语言模型技术发展和应用。
2025-02-26
grok3 有什么特点
Grok 3 具有以下特点: 1. 包含两个模型版本:Grok 3 和 Grok 3mini。 2. 在 AIME 和 GPQA 在内的基准测试中显著优于其他模型,在数学推理、代码处理、科学问题方面表现优秀。 3. 具备推理能力,在提供更多测试计算时间的情况下,优于 o1 和 R1。 4. 新增“Deep Search”能力,能深入了解用户目的,访问并交叉验证多个信息源,确保研究内容更准确,并公开执行搜索所采取的步骤。 5. 可以调用 Big Brain 功能,加强计算来解决问题。 6. 现场演示中能生成游戏设计方案。 7. 语音模式在大约一周内推出。 8. API 几周后推出。 9. 今天向所有 Premium+订阅者推出(IOS、网页版都有),完整版在网页版,APP 上的 Grok 3 有一定削弱。(还有单独会员叫:SuperGrok)今天所有该类用户都能用上。 10. Grok 2 将在 Grok 3 正式可用后开源,xAI 计划也会开源 Grok 3 。 在评测方面,Grok 3 在基准测试中领先,但与竞争模型差距不大,整体表现比其他模型高出约 1 2%。Andrej Karpathy 认为 Grok 3 + Thinking 比 DeepSeek R1 强一些,接近 OpenAI 顶级模型,在测试中成功解决了多个复杂问题,但“DeepSearch”能进行高质量的检索类问题回答,尚需改进。 地址:https://huggingface.co/smirki/UIGENT1Qwen7b
2025-02-26
通义千问最新模型
通义千问最新模型情况如下: 发布了一个模型并开源了两个模型。 Qwen2.5Max:全新升级发布,比肩 Claude3.5Sonnet,几乎全面超越 GPT4o、DeepSeekV3 及 Llama3.1405B。是阿里云通义团队对 MoE 模型的最新探索成果,预训练数据超过 20 万亿 tokens。在多项公开主流模型评测基准上录得高分,开发者可在 Qwen Chat(https://chat.qwenlm.ai/)平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型 API 服务。 Qwen2.5VL:全新视觉模型实现重大突破,增强物体识别与场景理解,支持文本、图表、布局分析,可处理长达 1 小时视频内容,具备设备操作的 Agent 能力。 Qwen2.51M:推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,同时开源推理框架,在处理百万级别长文本输入时可实现近 7 倍的提速,首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中,7B 模型出现少量错误。在更复杂的长上下文理解任务中,Qwen2.51M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本,Qwen2.514BInstruct1M 模型不仅击败了 Qwen2.5Turbo,还在多个数据集上稳定超越 GPT4omini。
2025-02-26
能配音的AI
以下是一些能为视频配音的 AI 工具: 1. Vidnoz AI: 支持 23 多种语言的配音,音质高保真。 支持文本转语音和语音克隆功能。 提供语音参数自定义和背景音乐添加工具。 提供面向个人和企业的经济实惠的定价方案。 2. Wavel Studio: 支持 30 多种语言的配音,音质自然流畅。 自动去除背景噪音和杂音。 提供添加字幕和文本叠加层的工具。 界面友好,提供多种自定义选项。 3. Elai.io: 支持 65 多种语言的配音,音色和语调真实。 自动将唇形与语音同步。 生成字幕,提高视频的可访问性。 支持多位配音者,适合复杂对话场景。 4. Rask AI: 支持 130 多种语言的配音,包括稀有和濒危语言。 采用先进语音合成技术,音质高保真。 提供语音参数自定义和音效添加工具。 与多种视频编辑平台和工作流程整合。 5. Notta: 提供快速实惠的多语言配音解决方案。 保留原声说话风格和细微差别。 提供调整语音速度和音调的工具。 支持批量处理,高效完成多视频配音。 6. Dubverse: 支持 60 多种语言的配音,音质接近真人。 提供文本转语音和语音克隆功能。 提供语音参数自定义和情感添加工具。 与多种视频平台和社交媒体渠道整合。 此外,还有以下相关工具和功能: 1. DubbingX 2.0.3:新增歌声转歌声功能,包括纯歌声转换和成品歌曲转换。有音色市场,可买卖声音并设置商用等权限,后续会出接单等功能。 2. 海螺 AI:国内版可用,输入文本选择音色,特色功能是在文本句子间插入'<0.5>'可添加指定时长的停顿。 在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。希望以上信息对您有所帮助。如果您还有其他问题,请随时提出。
2025-02-26
制作教案最好的AI是哪个
目前没有明确哪一个 AI 是制作教案的最好选择,但以下几个 AI 工具在相关方面具有一定的优势和特点: 1. Adobe Firefly:内置在各种 Adobe 产品中,不过在质量方面可能稍逊于 DALLE 和 Midjourney,但它只使用有权使用的图像。网址:https://www.adobe.com/sensei/generativeai/firefly.html 2. Stable Diffusion:开源选项,可在任何高端计算机运行,但开始需要学会正确制作提示。参考指南:https://www.jonstokes.com/p/stablediffusion20and21anoverview 3. DALLE:已纳入 Bing(需使用创意模式)和 Bing 图像创建器,系统可靠但质量略逊于 Midjourney。 4. Midjourney:2023 年中期最好的系统,学习曲线低,只需键入“thingyouwanttoseev 5.2”(末尾的v 5.2 很重要,它使用最新的模型)就能得到较好结果,需要 Discord。使用 Discord 的指南:https://www.pcworld.com/article/540080/howtousediscordabeginnersguide.html 5. 此外,还可以利用海螺 AI 进行相关创作,参考网站:https://hailuoai.com 。 需要注意的是,选择适合的 AI 工具取决于您的具体需求和使用习惯。
2025-02-26
AIGC开课准备
以下是关于 AIGC 开课准备的相关信息: 北京市新英才学校的师生已在利用生成式 AI 开展多种活动,如跨学科项目老师带着学生用 AIGC 做学校地图桌游,英语老师借助 AIGC 备课和授课,生物和信息科技老师合作带着学生训练 AI 模型以识别植物。数字与科学中心 EdTech 跨学科小组组长魏一然深入参与其中,她曾在美国范德堡大学读研究生,在创新学校做过老师,还在腾讯做过教育产品经理。 魏一然表示学生对 AIGC 的认知和理解差异很大,部分学生几乎一无所知,而小部分学生比老师还懂。学校领导层重视人工智能教育的发展,鼓励老师探索新方式和工具,目前还在探索初级阶段,但已有一定经验和成果。 关于 AI 版权分享课: 直播准备工作包括共享屏幕调试、微信直播与飞书直播的设置、人员操作界面的准备等。 人员任务安排方面,谢家炜负责投屏分享、刘洋协调沟通、咯咯哒操作相关界面等。 探讨了 AI 版权问题,涉及声音权、IP 形象版权等,如用他人声音做二创并发布到公共平台可能侵权,AI 设计的 IP 形象版权认定及商标申请等。 会收集观众在直播平台提出的问题,后续统一解答。 介绍了版权基础知识,包括版权是知识产权的一部分,商标和专利的相关内容。 对比了传统作品与 AI 生成作品在版权方面的情况。 说明了版权基本常识,如版权无需向国家申请注册,作品完成即有版权,版权登记是法律证据,国外作品也有版权,版权本质是作者对作品传播的控制权。 指出了 AI 内容生成的侵权情形,如不知情时模型厂商用他人版权作品作训练数据,用户可能无辜躺枪,故意生成与他人风格相似作品等可能构成侵权。
2025-02-26
我打算用windsurf、coze、飞书多维表格来搭建自动流程,重新为我推荐相关学习内容
以下是为您推荐的相关学习内容: 一泽 Eze:Coze+飞书多维表格,打造专属 AI 智能体,享受 10 倍知识管理效率 逐步搭建 AI 智能体: 搭建选择内容推荐流,用于根据用户输入的“想看 xxx 内容”,在飞书多维表格的稍后读存储地址中检索现有的收藏记录,匹配符合阅读兴趣的内容记录。 新建工作流「recommendRead」,根据弹窗要求自定义工作流信息。 工作流全局流程设置: 4.1 开始节点:输入想阅读的内容主题。收到用户输入的“想看 xxx 内容”这类指令即开始流程,判断哪些用户输入是在交代想阅读的内容主题交由外层 bot 的大模型判断。 4.2 变量节点:引入 bot 变量中保存的飞书多维表格地址,添加变量节点并设置。 4.3 插件节点:添加「飞书多维表格search_records」插件,设置{{app_token}}参数,在{{app_token}}引用变量节点的{{app_token}},输出结果的{{items}}里会返回所需查询结果,也可通过额外配置定向检索未读状态的收藏记录。 4.4 大模型节点:采用批处理对检索出来的收藏记录逐个进行相关性匹配,可优化用户提示词提升匹配精准度。 输入观点一键生成文案短视频 基于其它博主开源的视频生成工作流做了功能优化,实现视频全自动创建。 功能:通过表单输入主题观点,提交后自动创建文案短视频,并推送视频链接到飞书消息。 涉及工具:Coze 平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成)、飞书(消息)、飞书多维表格(字段捷径、自动化流程) 大体路径: 通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频。 发布 coze 智能体到飞书多维表格。 在多维表格中使用字段捷径,引用该智能体。 在多维表格中创建自动化流程,推送消息给指定飞书用户。
2025-02-26
为我提供相关的学习课程,方便我可以高效上手学习,零基础代码,开始去学习搭建自己的工作流
以下是为您提供的相关学习课程,方便您零基础代码学习并搭建自己的工作流: 8 月 13 日 ComfyUI 共学: 讨论了 Config UI 的学习需求、教程分享、部署问题、应用场景,以及相关活动的规划。 分享了 Config UI 工作流在不同场景的应用、优势、弊端以及学习方法,还提及了相关的分享会和开源社区的情况。 探讨了 CONFIUI 的使用、工作流分享、报错问题及解决方案,还有相关课程的设计安排。 讨论了郭佑萌在 AI 绘图领域的工作经历,包括项目实践、技术调研、培训以及未来的教学计划等内容。 介绍了 AI 绘图课程的规划。 课程从零基础开始,从认识 config、UI 及行业概念讲起,逐步深入到环境部署、底层技术概念、提示词等内容。 介绍了 config 牛角尖大王系列,包括 control net、IP Adapter、图像放大、mask 等部分,阐述了它们的作用和玩法。 学习相关知识后初步具备搭建复杂工作流能力,会拆解分析网上热门工作流。 报错问题可分为网络、模型、工作流搭建、环境等方面,安装新插件时可参考项目地址的 requirement 文档。 规划了实战案例思路。 ComfyUI 共学快闪: 王蓉??Wang Easy 基础搭建和转绘。 唯有葵花向日晴基础教程,工作流开发,实际应用场景。 热辣 HuolarrAI 系统课私聊图生视频。 咖菲猫咪基础教程/工作流搭建思路/各版本模型使用的优缺点。 傅小瑶 Lucky 如何制作多人转绘视频。 云尚工作流节点搭建思路。 FǎFá 热门节点功能,搭建。 森林小羊基本报错解决方式及基础工作流逻辑分析。 苏小蕊基础教程。 Sophy 基础课程。 蜂老六装一百个最新常用插件后如何快速解决冲突问题。 阿苏工作流框架设计。 aflyrt comfyui 节点设计与开发。 老宋&SD 深度解释虚拟环境部署和缺失模型的安装。 Liguo 模型训练。 啊乐福基础课程。 塵优秀案例。 风信基础课程➕平面设计应用场景。 北南基础课程。 视频工作流框架设计。 Damon 基础课程。 渔舟基础课程+工作流搭建思路。 乔木船长工作流。 ☘️基础教程。 ☘基础教程。 工作流设计+典型案例剖析。 麒白掌工作流搭建。 OutSider 风格迁移。 吴鹏基础+工作流搭建。 拾光工作流基础搭建从入门到精通。 茶浅浅。视频转绘/节点工作流介绍。 百废待.新(早睡版)工作流从入门到进阶。 电商应用场景。 AI 女友麦洛薇(0 代码 comfyui 搭建,知识图谱稳定人设,无限上下文,永久记忆,可接入飞书): 打开 Comfyui 界面后,右键点击界面,即可找到 Comfyui LLM party 的目录,您既可以学习如何手动连接这些节点,从而实现一个最简单的 AI 女友工作流,也可以直接将工作流文件拖拽到 Comfyui 界面中一键复刻麦洛薇机器人。 飞书机器人创建: 在中创建自建应用。 进入应用获取 app_id 与 app_secret。 添加应用能力>开启机器人应用能力。 权限管理>消息与群组>选择需要的权限打开。 安全设置>将 comfyUI 运行的电脑 IP 加入白名单。 发布机器人以应用生效。 要先把创建的机器人拉到群组中或者拉进私聊。 飞书开发平台找到发送消息的开发文档。 右侧点击获取 token。 选择 receive id type,chat_id 对应群组,open_id 与 user_id 对应个人,点击选择成员,复制对应的 id 即可。 如果需要让机器人发送语音,需要自行在电脑上安装 ffmpeg。
2025-02-26
零代码基础的业务小白如何搭建自己的AI自动化工作流,方便提升效率
对于零代码基础的业务小白搭建自己的 AI 自动化工作流以提升效率,您可以参考以下步骤: 1. 利用 Comfyui 界面: 打开 Comfyui 界面后,右键点击,找到 Comfyui LLM party 的目录。 您可以学习手动连接节点来实现最简单的 AI 女友工作流,也可以将工作流文件拖拽到 Comfyui 界面中一键复刻提示词工程实验。 2. 启动 ollama: 从 ollama 的 github 仓库找到对应版本并下载。 启动 ollama 后,在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。 如果 ollama 连接不上,很可能是代理服务器的问题,请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。 3. 对于图片相关的工作流,比如 0 基础手搓 AI 拍立得: 上传输入图片。 理解图片信息,提取图片中的文本内容信息。 进行场景提示词优化/图像风格化处理。 返回文本/图像结果。 为了简化流程,可以选择 Coze 平台实现零代码版本的工作流。搭建流程时,主要关注以下几个步骤: 上传图片:将本地图片转换为在线 OSS 存储的 URL,以便在平台中进行调用。 插件封装:将图片理解大模型和图片 OCR 封装为工作流插件,实现便捷调用,如果市场里面有可以直接使用。 4. Coze 的工作流是一种可视化的方式,允许用户组合各种功能模块,如插件、大语言模型、代码块等,从而实现复杂和稳定的业务流程编排。具体来说: 工作流由多个节点组成,包括 Start 节点和 End 节点。用户可以在这些节点之间添加各种功能模块,构建出所需的业务流程。 工作流支持丰富的功能模块,包括调用大语言模型进行文本生成、调用插件进行数据处理等。用户可以根据需求灵活组合这些模块。 工作流的创建和编辑都可以通过可视化的拖拽界面完成,无需编写代码。这大大降低了工作流搭建的门槛。 创建好的工作流可以直接集成到 Coze 的聊天机器人中使用,实现复杂的业务逻辑。 总的来说,Coze 的工作流为用户提供了一种可视化、低代码的方式,来快速搭建满足业务需求的 AI 应用和服务。这极大地降低了开发门槛,让更多人可以利用 AI 技术来提升工作效率。但请注意,上述内容由 AI 大模型生成,请仔细甄别。
2025-02-26