Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek的技术路线是什么样的

Answer

DeepSeek 从一开始就选择了与国内诸多大模型新秀不同的技术路线。它走的是全球开源社区路线,分享最直接的模型、研究方法和成果,吸引反馈,再迭代优化,自我进益。开源十分彻底,从模型权重、数据集到预训练方法都悉数公开,高质量的论文也是开源的一部分。

DeepSeek 先后发布了多款开源模型:

  1. 2023 年 11 月,发布 DeepSeek Coder 和 DeepSeek LLM,但在计算的效率和可扩展性上遇到挑战。
  2. 2024 年 5 月,发布 V-2,以混合专家模型(MoE)和多头潜在注意力机制(MLA)技术的结合,大幅降低了模型训练特别是推理的成本,开始引发广泛讨论和推荐。
  3. 2024 年 12 月,发布 V-3,以 OpenAI、Anthropic 和 Google 百分之一的成本,实现了模型性能超越同类开源模型 Llama 3.1 和 Qwen 2.5,媲美闭源模型 GPT-4o 和 Claude 3.5 Sonnet 的成绩,引发轰动,成为世界大语言模型发展的里程碑。

DeepSeek 与 OpenAI 在实现里程碑式跃迁的进程中有以下区别:

  1. OpenAI 致力于实现计算资源规模与成本的无限扩张,而 DeepSeek 一直致力用尽可能低成本的计算资源实现更高的效率。
  2. OpenAI 花了两年时间达到 GPT-3 时刻,而 DeepSeek 用了一年摘得了 V-3 的圣杯。
  3. OpenAI 在 GPT 路线上一直聚焦在预训练的进步,而 DeepSeek 则是训练与推理并重。

DeepSeek 从隐秘低调到备受关注,以及它从 Coder 到 V-3 模型的三次迭代,与 OpenAI 从 GPT-1 到 GPT-3 的升级节奏和引发的反响非常接近。

Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

2023年初,科技媒体The Information进行过一轮中国可能出现哪些人工智能明星创业公司的盘点。已经做出了一些成绩的智谱和Minimax在列,刚刚创建的百川智能、零一万物和光年之外也被提及,该文章还特别提及了当时正准备再度创业尚名不见经传的杨植麟。这里面没有Deepseek。至少一年半之前,没人真的把DeepSeek当成AI的圈内人。尽管当时业界开始流传DeepSeek的母公司——从事私募量化技术的幻方握有数量丰沛的英伟达高性能显卡,仍没太多人相信它自己下场做大模型会有水花。现在,人人都在谈论DeepSeek,而且走的又是“墙外开花墙内香”的老路。可以认为,从第一天开始,DeepSeek与国内的诸多大模型新秀,选择的就不是同一个战场。它不拿融资(至少一开始不用拿),不用争抢大模型四小龙六小虎的座次,不比国内的舆论声势(唯一接受暗涌的采访,目的大概是招聘那些最热血的聪明的科学家),不搞产品投放投流。它选择的是与研究机构的本质最匹配的路径——走全球开源社区,分享最直接的模型、研究方法和成果,吸引反馈,再迭代优化,自我进益。开源社区迄今仍是AI学术研究、分享和讨论最热烈、充分、自由和无国界的地方,也是AI领域最不“内卷”的地方。DeepSeek从第一天就开源,应该是深思熟虑的。开源就要真开源,开得彻底,从模型权重、到数据集,再到预训练方法,悉数公开,而高质量的论文也是开源的一部分。年轻聪明的研究人员在开源社区的亮相、分享和活跃具有高能见度。看见他们的人,并不乏一些全球AI领域最重要的推动者。

DeepSeek 的秘方是硅谷味儿的

1.2023年11月,DeepSeek先后发布了两款开源模型DeepSeek Coder和DeepSeek LLM,只有少数人关注到了,而它们也在计算的效率和可扩展性上遇到了挑战。2.2024年5月,DeepSeek发布了V-2,以混合专家模型(MoE)和多头潜在注意力机制(MLA)技术的结合,大幅降低了模型训练特别是推理的成本,且性能可以在很多维度与世界顶尖模型相比较,它开始引发AI学术界和开发者的广泛讨论和推荐,这是DeepSeek走进更多人视野的开始。3.2024年12月,DeepSeek发布了V-3,以OpenAI、Anthropic和Google百分之一的成本,实现了模型性能超越同类开源模型Llama 3.1和Qwen 2.5,媲美闭源模型GPT-4o和Claude 3.5 Sonnet的成绩,引发轰动,成为世界大语言模型发展的里程碑。可以说,V-3就是DeepSeek的“GPT-3”时刻,一个里程碑。当然,DeepSeek与OpenAI在实现里程碑式跃迁的进程中区别在于——1.OpenAI在这一进程中一直致力于实现计算资源规模与成本的无限扩张,而DeepSeek则一直致力用尽可能低成本的计算资源实现更高的效率。2.OpenAI花了两年时间达到GPT-3时刻,而DeepSeek用了一年摘得了V-3的圣杯。3.OpenAI在GPT路线上一直聚焦在预训练的进步,而DeepSeek则是训练与推理并重——这也是全球模型技术发展趋势的要求。

DeepSeek 的秘方是硅谷味儿的

V-3模型引发了破圈的国际反应,CNBC的报道已经把V-3及其背后的DeepSeek视作中国AI迎头赶上美国的标志。如果仔细观察的话,并不难发现:DeepSeek从隐秘低调到备受关注,以及它从Coder到V-3模型的三次迭代,与OpenAI从GPT-1到GPT-3的升级节奏和它引发的反响,是非常接近的。我们先看看OpenAI——1.2018年OpenAI放出了GPT-1模型,是它第一个基于Transformer架构的预训练模型,证明了语言模型是一个有效的预训练目标,但质量和多样性有限,引发了一定的学界关注,但整体反应平常。2.2019年早些时候,OpenAI推出GPT-2,生成文本的质量和多样性大幅跃迁,基本验证了语言模型这条路的有效性,也引发了AI领域广泛的讨论和关注。3.2020年6月,OpenAI发布GPT-3,以1750亿参数成为当时世界上最大的语言模型,除了生成文本内容,还能进行翻译、问答和持续对话和思考,成为了生成式人工智能发展的里程碑。即便如此,GPT-3仍然是一个实验室项目。让我们再看DeepSeek——

Others are asking
deepseek官方教程
以下是关于 DeepSeek 的官方教程相关信息: 火山方舟 DeepSeek 申请免费额度教程,包含多种 API 使用方式,如飞书多维表格调用、Coze 智能体调用、浏览器插件调用。可以使用邀请码 D3H5G9QA,通过邀请链接 https://www.volcengine.com/activity/deepseek?utm_term=202502dsinvite&ac=DSASUQY5&rc=D3H5G9QA 邀请可拿 3000 万 tokens,畅享 671B DeepSeek R1,活动截止至北京时间 20250218 23:59:59。同时,火山方舟大模型服务平台的模型服务计费文档有更新,DeepSeekR1、V3 模型分别提供了 50 万免费额度和 API 半价活动。 有关于一线教师的 AI 需求与高效工具推荐,如让模型创作诗歌、生成宣传标语、提示库(https://apidocs.deepseek.com/zhcn/promptlibrary)、代码解释、内容分类、角色扮演(自定义人设)、散文写作、文案大纲生成、模型提示词生成等。 2 月 14 日的社区动态中,有《突破 DeepSeek R1 能力天花板,火山引擎扣子+飞书一站式企业解决方案》《羊毛快薅|字节火山上线了 DeepSeek 系列模型并悄悄更改了模型服务价格...》等内容,还附上了飞书多维表格、Coze 的接入使用方法等。此外,还有关于 DeepSeek 关键 9 篇论文及创新点的讲解,以及 DeepSeek 官方发布的 R1 模型推荐设置。
2025-04-15
coze搭建工作流调用deepseek如何把模型的输出存入到多维表中
以下是将模型的输出存入到多维表中的步骤: 1. 逐步搭建 AI 智能体: 搭建整理入库工作流。 设置大模型节点提取稍后读元数据,使用 MiniMax 6.5s 245k,设置最大回复长度至 50000,以确保能完整解析长内容网页。 进行日期转时间戳,后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳,需要使用「日期转时间戳time_stamp_13」插件进行格式转化。 把稍后读元数据转换为飞书多维表格插件可用的格式,飞书多维表格插件目前(2024 年 08 月)只支持带有转义符的 string,以 Array<Object>格式输入,所以必须将之前得到的元数据数组进行格式转换。 添加「飞书多维表格add_records」插件,只需要设置{{app_token}}与{{records}}参数,将元数据写入飞书表格。 2. 搭建 Coze 工作流: 打开 Coze 的主页,登录后,在【工作空间】创建一个智能体。 在编排页面,给智能体编辑好人设,可先写一个简单的,然后点右上角自动优化,系统会自动补全更精细的描述。点击工作流的+,创建一个工作流。 大模型节点把 input 给到 DeepSeek,让 DeepSeek 按照提前规定的输出框架生成对应文案。 生图节点将输出给到图像生成组件画图。 结束输出时,两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时,如果需要 input 可被 DeepSeek 调用,需要用{{input}}作为参数引入,不然大模型不知道自己需要生成和这个 input 相关的结果。编排完,点击【试运行】,调试至满意后点击发布。
2025-04-14
deepseek写论文
以下是关于 DeepSeek 在不同方面应用的相关信息: 应用场景:包括脑爆活动方案、会议纪要、批量处理客户评论、分析总结复盘内容、生成专业软件使用过程、写小说框架、写论文、写文案、写小红书笔记、写周报、做设计头脑风暴、做网站、分析感情问题等。 优势与不足:在写文方面全面领先,但长文可能太发散、文风用力过猛导致审美疲劳,且模型多样性不够,相同 prompt 提问多次答案雷同。 应对策略:写理性文章时,可先与 DeepSeek 讨论思路,再用 Cloud 3.5 批量生成;用 O1 模型对创作的字数控制有一定效果,也可通过多轮对话让 AI 增删改查来调整字数。 创作相关:模仿特定小说家的文学方式创作小说,需在提示词中描述文风特征;邀请大家在腾讯频道发布用 AI 写的小说并鉴赏。 发展历程:DeepSeek 历时 647 天在大语言模型(LLM)领域取得突破,发布 13 篇论文。谷歌 CEO 坦言 Deep Seek 的突破标志着 AI 的全球化进程。
2025-04-13
如何使用deepseek写论文?
使用 DeepSeek 写论文可以参考以下几点: 1. 给予 DeepSeek 更多自由发挥的空间,避免过度限制。 2. 注意旧模型在文学创作中可能存在的过度道德说教和正面描述趋势,导致结果生硬死板的问题。 3. 了解 DeepSeek 在文风、哲学思考和触动人情感方面的优秀表现,利用其文创能力为论文增添特色。 4. 参考提示词编写的方法,例如收集信息、重新定义问题等,以更有效地向 DeepSeek 传达需求。 5. 可以借鉴他人使用 DeepSeek 写论文的经验,如 Yvonne 的成功案例。 需要注意的是,虽然 DeepSeek 能提供帮助,但仍需您对生成的内容进行审核和修改,以确保论文的质量和准确性。
2025-04-13
deepseek v3微调
以下是关于 Deepseek V3 微调的相关信息: 云舒文章总结卡 2.0 提示词全面支持 Deepseek V3,效果媲美 Claude3.7。V3 需要为 0324 更新的版本,DS 官网及 API 已更新,如调用其它平台 API 需要查看 DS 版本号。提示词复制链接:。横版为 1080 x 800 卡片提示词,竖版为 750 x 不限高卡片提示词。 各平台均需下载 html 文件,打开后才能查看真实效果,平台自带预览因兼容性问题无法正常展示效果。Claude 使用平台包括 Claude3.7 官网、API、Cursor,使用时需要下载为 HTML 文件打开查看效果。Deepseek 使用平台包括 Deepseek 官网、API(V3 需要为 0324 更新的版本),Deepseek 需要复制代码到 html 文件里,然后保存进行查看。 关于智能纪要,会带着大家复现模型的蒸馏和微调,并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面。 北京时间 00:30 至 08:30 期间,DeepSeek API 价格大幅下调,DeepSeekV3 降至原价的 50%。
2025-04-12
deepseek的使用技巧
以下是关于 DeepSeek 的使用技巧: 1. 了解其特点与优势: 推理型大模型:核心是推理型,无需用户提供详细步骤指令,通过理解真实需求和场景提供答案。 更懂人话:能理解用户用“人话”表达的需求,无需特定提示词模板。 深度思考:回答问题时能深度思考,非简单罗列信息。 文风转换器:可模仿不同作家文风写作,适用于多种文体和场景。 2. 更多提示词技巧请查看 3. 在 AI 切磋大会第十期 2 月 23 日 deepseek 专场中,分享了以下使用方法技巧: 分享使用 DeepSeek 在工作生活上的案例。 分享 DeepSeek 输出“超预期结果”的惊艳场景。 分享别人使用的案例。 方法论碰撞,如使用 DeepSeek 的技巧、与其他工具的协同方案、模型微调/部署的技巧方法、获取流量/客户等。 在 Workshop 自由探讨环节,参与者可自由组队,确定围绕 DeepSeek 应用的项目方向,进行头脑风暴和制定落地方案,并提交项目初稿。推荐使用 DeepSeek + 飞书多维表格、DeepSeek + 扣子等工具。若讨论无方向,可设定标准问题引导;分组混乱,可预设热门主题让参与者自行加入。
2025-04-12
能画技术路线图的prompt
以下是关于能画技术路线图的 prompt 相关内容: Midjourney Bot 的 Prompt 类型: 基本 Prompts:可以只是一个单词、短语或表情符号。 高级 Prompts:包括一个或多个图片 URL、多个文本短语以及一个或多个参数。其中,图片 URL 始终位于 prompt 的最前面,以影响完成结果的风格和内容。提示文字是对希望生成的图像的文本描述,精心编写的提示有助于生成惊艳的图像。参数可以改变生成图片的方式,需放在提示语的末尾。 ComfyUI Flux 与 runway 制作绘画视频: 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。 草图上色:使用 flux 的 controlNet,depth 固定,目前 Union 版本不建议权重调太高,结束时间也需注意。 Prompt engineering(提示工程): 开发测试用例:定义任务和成功标准后,创建多样化的测试用例,包括典型示例和边界情况,以确保提示具有鲁棒性。 设计初步提示:制定初步提示,概述任务定义、良好响应的特征及必要上下文,添加规范输入和输出的示例供参考。 根据测试用例测试提示:使用初步提示将测试用例输入,评估模型响应与预期输出和成功标准的一致性,使用一致的评分标准进行系统性的性能评估。
2025-04-19
我想要系统学习ai大模型应用开发,能帮我制定一个系统学习路线吗?
以下是一个系统学习 AI 大模型应用开发的学习路线: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 熟悉 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 研读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 熟悉 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 7. 参与相关社区交流和项目实践: 总的来说,AI 大模型应用开发是一个多学科、系统性的领域,需要深入的理论学习和工程实践经验相结合。除了学习基础知识,熟练使用开源框架工具也很关键。保持对前沿动态的跟踪,并实际参与相关项目是获得真知灼见的最佳途径。 此外,以下是一个利用 AI+SMART 安排学习计划的案例: 学习目标与个人或职业发展目标的关系:平时工作中需要经常阅读英文文档。另外,有朋友和客户是英文母语者,想要和他们沟通更加顺畅。其次,希望未来有机会进入大型外企工作。 具体学习内容:首先是词汇需要提高,其次听力、口语、阅读和写作这些方面都进行全面提高。 量化学习进度和成功:以考取雅思 8.0,且可以和朋友或客户流利的交谈为目标。 时间框架:半年内。 现实可行性:目前雅思 6.5,每天可以投入 2 小时。周末可以更多。有访问网络课程的条件,也可以购买书籍或其他学习材料。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-08
我已经有了论文大纲,需要生成技术路线图,哪个AI可以实现
以下是一些可以帮助您生成技术路线图的 AI 工具和方法: 1. 利用 AI 写作助手生成课题的大纲,包括引言、文献综述、方法论、结果和讨论等部分。 2. 使用 AI 文本分析工具来分析收集到的资料,提取关键信息和主要观点。 3. 对于生成“延伸思考”的问题,可以让 AI 根据特定的参照(比如之前的产出或是新增的参考文案)输出具备更高关联度的内容。 4. 可以用同一段提示词对比不同模型的输出,择优深挖。 5. 在满意的内容节点上添加“文本编辑器显示”,对文本进行精加工。 6. 先确定整个调研报告的大纲目录,例如通过手机识别示例报告的目录截图。 7. 让 AI 总结语言风格,如将范文交给 Claude 2 总结语言风格。 8. 让 GPT4 按照目录逐步生成章节内容,设置循环结构,根据情况决定是否调用 webpolit 插件查询相关信息。 9. 在需要搜索网络信息的章节处打上标签,让 GPT4 自主搜索信息再来生成内容。 需要注意的是,AI 工具可以作为辅助,但不能完全替代您的专业判断和创造性思维。在使用 AI 进行相关工作时,应保持批判性思维,并确保成果的质量和学术诚信。
2025-04-08
AI学习路线
以下是为新手提供的 AI 学习路线: 1. 了解 AI 基本概念: 建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出自己的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-03-30
背景:我是一名高中生,想学习AI知识,逐步从入门到精通 目标:希望在<3个月>内具备一定能力。 请结合我的背景和优势,为我设计一份学习路线: - 列出每阶段(例如每一个礼拜)的学习重点(比如编程基础、数学)。 - 为每个阶段推荐<具体资源>(书籍、在线课程、练习项目等)。 - 提供一些学习技巧或注意事项。
以下是为您设计的一份在 3 个月内从入门到具备一定能力的 AI 学习路线: 第一个月: 学习重点:了解 AI 基本概念,包括术语、主要分支及它们之间的联系;掌握编程基础,如 Python 语言。 推荐资源: 书籍:《人工智能:一种现代方法》 在线课程:Coursera 上的“人工智能入门”课程 练习项目:使用 Python 实现简单的数据分析和可视化 学习技巧和注意事项:多做笔记,理解概念,注重实践。 第二个月: 学习重点:深入学习数学基础,包括统计学、线性代数和概率论;了解算法和模型中的监督学习和无监督学习。 推荐资源: 书籍:《概率论与数理统计》《线性代数及其应用》 在线课程:edX 上的“机器学习基础”课程 练习项目:使用监督学习算法进行数据分类预测 学习技巧和注意事项:通过实际案例加深对数学知识的理解,多做练习题。 第三个月: 学习重点:掌握神经网络基础,包括网络结构和激活函数;学习模型的评估和调优。 推荐资源: 书籍:《深度学习》 在线课程:Udacity 上的“深度学习入门”课程 练习项目:构建并优化一个简单的神经网络模型 学习技巧和注意事项:积极参与在线讨论,及时解决学习中的问题。 在整个学习过程中,您还可以: 体验 AI 产品,如 ChatGPT、文心一言等,了解其工作原理和交互方式。 掌握提示词的技巧,提高与 AI 的交互效果。 参与相关的社区和论坛,分享学习经验和成果。
2025-03-21
想学习AI的路线应该是什么样的
以下是新手学习 AI 的路线: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。
2025-03-19
金融业相关AI应用场景或AI技术介绍
在金融业中,AI 有以下应用场景和技术: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,辅助投资者做出更明智的投资决策。 4. 客户服务:提供 24/7 的客户服务,回答客户常见问题。 例如,Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能够一次处理多达数百万份文档,在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等,并返回具体答案,主要面向金融服务公司,如对冲基金和投资银行,同时也适用于律师事务所等其他专业领域。
2025-04-15
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
学习AI怎么在工作中使用,提高工作效率,有必要从技术原理开始学习吗
学习 AI 在工作中使用以提高工作效率,不一定需要从技术原理开始学习。以下是一些相关的案例和建议: 案例一:GPT4VAct 是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成,能使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型,通过视觉理解技术识别网页元素,能执行点击和输入字符操作等,但目前存在一些功能尚未支持,如处理视觉信息程度有限、不支持输入特殊键码等。 案例二:对于教师来说,有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”,从理解以 GPT 为代表的 AI 工作原理开始,了解其优势短板,学习写好提示词以获得高质量内容,并基于一线教师工作场景分享优秀提示词与 AI 工具,帮助解决日常工作中的常见问题,提高工作效率。 建议:您可以根据自身工作的具体需求和特点,有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率,可以先从了解常见的 AI 工具和应用场景入手,掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用,了解技术原理会有一定帮助。
2025-04-15
AI相关的最前沿技术网站
以下是一些 AI 相关的前沿技术网站: 1. OpenAI:提供了诸如 GPT 等先进的语言模型和相关技术。 2. Google AI:涵盖了多种 AI 领域的研究成果和应用。 3. Microsoft Research:在 AI 方面有众多创新研究和技术展示。 此外,WaytoAGI 也是一个致力于人工智能学习的中文知识库和社区平台,汇集了上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯。在没有任何推广的情况下,WaytoAGI 两年时间已有超过 300 万用户和超千万次的访问量,其目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝等。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14