Navigate to WaytoAGI Wiki →
Home/All Questions
懂编程但是不了解大模型的工程师如何系统的学习深度学习?
对于懂编程但不了解大模型的工程师,系统学习深度学习可以参考以下路径: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程推荐吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 熟悉 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 阅读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 熟悉 LLM 预训练框架,如 PyTorch、TensorFlow 等。 学会微调 LLM 模型进行特定任务迁移。 参考相关资源,如 HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 了解模型评估和可解释性。 熟悉模型服务化、在线推理、多语言支持等。 运用相关开源工具,如 ONNX、TVM、BentoML 等。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 此外,为了更好地理解相关技术原理和建立框架,还可以了解以下内容: 1. 概念:生成式 AI 生成的内容称为 AIGC。 2. 概念与关系: AI 即人工智能。 机器学习是电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习使用有标签的训练数据,目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务包括聚类。 强化学习从反馈里学习,最大化奖励或最小化损失,类似训小狗。 深度学习是一种参照人脑有神经网络和神经元的方法(因有很多层所以叫深度),神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 3. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制来处理序列数据,而不需要依赖于循环神经网络或卷积神经网络。
2025-03-13
怎么搭智能体
搭建智能体的方法如下: 输入人设等信息创建智能体,并放上相关工作流。配置完成后可进行测试,但千万不要直接发布。若工作流中存在使用个人 token 的插件,可将 token 作为工作流的输入,让用户购买后自行输入 token 再发布。 按照市场营销逻辑组织智能体结构,确定以品牌卖点提炼六步法为核心的流程,将品牌卖点定义与分类助手、STP 市场分析助手、用户画像分析助手、触点收集助手等分析助手加入工作流,同时还可包括用户需求分析的 KANO 助手、营销六层转化漏斗分析、超级转化率六要素等工具。 智能体的主要功能和设计思路方面,如新年 flag 不倒翁智能体,具有目标拆解、提供周任务 LIST、形成 FLAG 社区等功能。其设计思路包括通过意图识别区分用户需求,调用不同模块,如目标管理模块、任务生成模块、内置互动模块等。
2025-03-13
当前AI应用的内外部环境及趋势
当前 AI 应用的内外部环境及趋势如下: 技术创新方面:大模型创新架构优化加速涌现,融合迭代成为趋势;Scaling Law 泛化,推理能力成为关键,推动计算和数据变革;视频生成在 AGI 探索中表现突出,空间智能统一虚拟和现实。 应用格局方面:第一轮洗牌结束,聚焦 20 赛道 5 大场景;多领域竞速中运营大于技术,AI 助手竞争激烈;AI+X 赋能类产品发展迅速,原生 AI 爆款难求。 产品趋势方面:多模态上马,Agent 席卷一切,高度个性化需求凸显。 行业渗透方面:数据基础决定初速度,用户需求成为加速度。 创投方面:投融资马太效应明显,国家队出手频率提升。 在具体的行业动态中: AI 音频领域:效果和延迟问题取得突破,难以分辨语音是否由 AI 生成,语音生成延迟降低。 3D 世界生成领域:目前处于初级阶段,新产品未向大众开放,预计明年会有巨大进步。 应用领域:更新主要集中在 AI 搜索、AI 知识库、AI 编程,传统软件增加 AI 功能,未来可能不再有“AI 应用”的单独分类。 融资方面:能拿到钱的不再局限于模型公司,越来越多应用公司受资本青睐。 红杉资本观点认为: 人工智能在客户支持、法律服务和软件工程等行业展示了产品与市场的契合度。 生成式人工智能经历快速增长,但 AI 投资转化为可观回报存在问题。 2024 年将是真正的 AI 应用从“副驾驶”转变为“代理”的一年,未来将更有能力完成更高层次认知任务,计算平衡从预训练转向推理。 目前人工智能公司融资环境不均衡,关键挑战在于提高用户保留率和缩小期望与现实差距,产品与市场的契合度有待进一步提升。
2025-03-13
我有项链白底图,想把他戴在模特上,应该怎么做
要将项链白底图戴在模特上,您可以考虑使用图像编辑软件,如 Adobe Photoshop 或类似的工具。以下是一种可能的操作步骤: 1. 打开图像编辑软件,导入模特图片和项链白底图。 2. 选择项链白底图,使用抠图工具(如魔术棒、套索工具等)将项链从背景中抠出来。 3. 将抠出的项链图层复制或拖曳到模特图片上。 4. 调整项链的大小、位置和角度,使其与模特的姿势和比例相匹配。 5. 可能需要对项链的光影、色调等进行调整,使其与模特图片的整体效果融合。 另外,如果您使用 AI 工具,如 Stable Diffusion 等,以下是一些相关的提示词和参数设置示例: 提示词:breathtaking cinematic photo, masterpiece, best quality, , blonde hair, silver necklace, carrying a white bag, standing, full body, detailed face, big eyes, detailed hands, bracelet 参数设置:Steps:20, Sampler:DPM++2M Karras, CFG scale:7, Seed:3748048683, Size:362x486, Model hash:7c819b6d13, Model:majicmixRealistic_v7, VAE hash:c6a580b13a, VAE:vaeftmse840000emapruned.safetensors, Denoising strength:0.75, Clip skip:2, Mask blur:2, ControlNet 0:"Module:none,Model:control_v11p_sd15_openpose,Weight:1,Resize Mode:Crop and Resize,Low Vram:False,Processor Res:512,Guidance Start:0,Guidance End:1,Pixel Perfect:True,Control Mode:My prompt is more important" 但请注意,使用 AI 工具生成的效果可能需要多次尝试和调整才能达到理想状态。
2025-03-13
生成简历的ai工具,国内可以使用的
以下是一些国内可以使用的生成简历的 AI 工具: 1. Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型自动生成简历,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 2. Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的每个方面,包括写作、编辑、格式化和优化。 3. Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 您可以根据自己的需要选择最适合的工具。
2025-03-13
有没有表格处理ai?
目前有多种可用于表格处理的 AI 工具和插件,例如: 1. Excel Labs:是 Excel 插件,基于 OpenAI 技术,新增生成式 AI 功能,可在 Excel 中进行数据分析和决策支持。 2. Microsoft 365 Copilot:整合了 Word、Excel、PowerPoint 等办公软件,通过聊天形式完成用户需求,如数据分析和格式创建。 3. Formula Bot:提供数据分析聊天机器人和公式生成器功能,支持自然语言交互进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,能进行公式生成、生成相关文本内容、执行情感分析、语言翻译等任务。 此外,飞书多维表格也能与 AI 协作,帮助处理数据。例如,自带 AI 插件可实现自然语言提取网址和电话、生成 AI 标签等功能。在工作中,可根据具体需求选择合适的工具,如用智谱 AI 表格插件理解图片、生成视频的指令等。随着技术发展,未来可能会有更多 AI 功能集成到表格处理中,提高工作效率和智能化水平。
2025-03-13
本周最新的AI资讯
以下是本周最新的 AI 资讯: 3 月 12 日: 【AI 3D】:BlenderMCP 与 Claude AI 沟通,在 Blender 实现快速 3D 建模;MIDI 可实现单幅图像到 3D 场景生成;Move AI 更新动作捕捉能力,提出 Gen 2 Spatial Motion。 【AI 写作】:MMStoryAgent 是 AI 多模态故事生成系统。 【AI 视频】:VACE 是阿里推出的一体化视频创作和编辑技术;VideoPainter 是腾讯开源的视频编辑技术;Wonder Dynamics 推出摄像机轨道(Camera Track)和清洁板(Clean Plate)功能。 【其他】:OpenAI 为开发者推出一套 AI Agent 开发套件;R1Omni 是阿里情感识别模型,通过视频识别情感;Luma AI 发布一种新的预训练范式 IMM,旨在突破算法瓶颈,提高生成预训练算法的性能;Manus 宣布与阿里通义千问团队达成战略合作。 3 月 4 日: 【AI 3D】:Meshcapade 预告可从视频/图像中捕捉面部表情并具有逼真的 3D 发丝;InsTaG 通过几秒钟视频学习,快速形成逼真的 3D 说话头像效果;3DMem 是新型 3D 场景记忆框架。 【AI 绘图】:智谱开源 AI 绘图 CogView4,可以在图像中生成中文字符;海螺推出 Image01 多功能文本转图像模型。 【AI 视频】:Runway 网友爆料其内测能力可根据参考图像进行 Video to Video 视频风格化;Vidu 的 API 开放平台全面开放。 【AI 模型】:Google Colab 推出 Data Science Agent;微软为医疗行业提供首个统一语音 AI 助手:Dragon Copilot;Opera 宣布推出网页浏览器的 AI 代理。 AIGC Weekly32: Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位: Shopify 的 AI 助手现已上线。Sidekick 是一个帮助机器人,它知道如何在 Shopify 中执行任何操作提取相关数据、操作新功能或创建报告: Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能: OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展: Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器:
2025-03-13
最新的Ai资讯
以下是 3 月 4 日、10 日、12 日的 AI 资讯汇总: 3 月 4 日: 【AI 3D】 Meshcapade:预告可从视频/图像中捕捉面部表情并具有逼真的 3D 发丝。 InsTaG:通过几秒钟视频学习,快速形成逼真的 3D 说话头像效果。 3DMem:新型 3D 场景记忆框架。 【AI 绘图】 智谱:开源 AI 绘图 CogView4,可以在图像中生成中文字符。 海螺:推出 Image01 多功能文本转图像模型。 【AI 视频】 Runway:网友爆料 Runway 内测能力可根据参考图像进行 Video to Video 视频风格化。 Vidu:API 开放平台全面开放。 【AI 模型】 Google Colab:推出 Data Science Agent。 微软:为医疗行业提供首个统一语音 AI 助手:Dragon Copilot。 Opera:宣布推出网页浏览器的 AI 代理。 3 月 10 日: 【AI 3D】 MeshPad:草图创建 3D 网格,支持编辑修改,实现直观和交互式的 3D 建模。 【AI 写作】 Muse:专门为小说创作训练的 AI 模型工具,可实现在线的小说续写修改,创意头脑风暴以及同时基于画布形式的故事创作。可免费试用。 【AI 视频】 Luma:发布 Ray2 Flash 视频模型,生成速度快 3 倍,成本便宜三倍。 【其他】 OpenAI:为旗下模型推出模型对比页面,可对于模型基础能力进行直观对比了解。 谷歌:为开发者推出 Gemini 嵌入模型 Gemini Embedding。 中国成功研制“祖冲之三号”量子计算原型机。 3 月 12 日: 【AI 3D】 BlenderMCP:与 Claude AI 沟通,在 blender 实现快速 3D 建模。 MIDI:单幅图像到 3D 场景生成。 Move AI:更新动作捕捉能力,提出 Gen 2 Spatial Motion。 【AI 写作】 MMStoryAgent:AI 多模态故事生成系统。 【AI 视频】 VACE:阿里推出一体化视频创作和编辑技术。 VideoPainter:腾讯开源视频编辑技术。 Wonder Dynamics:推出摄像机轨道(Camera Track)和清洁板(Clean Plate)功能。 【其他】 OpenAI:为开发者推出一套 AI Agent 开发套件。 R1Omni:阿里情感识别模型,通过视频识别情感。 Luma AI:发布一种新的预训练范式 IMM,旨在突破算法瓶颈,提高生成预训练算法的性能。 Manus:宣布与阿里通义千问团队达成战略合作。
2025-03-13
有没有参照pdf模仿生成一个类似的word的ai
以下是关于将 PDF 转换为类似 Word 或生成可视化网页的相关内容: 用 AI 把 PDF 一键变成能玩的可视化网页是可行的。如果想插入视频,需找到公网的视频地址(本地视频先上传到公网,如 Youtube 或 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项,把复制下来的 HTML 代码粘贴到媒体资源处。对于其他渠道没有代码预览功能的,可把生成的代码复制到 https://www.yourware.so/ ,点 deploy code 稍等就有预览,点 copy link 可分享给朋友。 基于深度学习的 ChatDOC PDF 解析器在超过一千万份文档页面的语料库上进行了训练,包含一系列复杂步骤,如 OCR 进行文字定位和识别、物理文档对象检测、跨列和跨页调整、阅读顺序确定、表格结构识别、文档逻辑结构识别等。解析后会以 JSON 或 HTML 格式提供结果,像一个结构清晰的 Word 文件。 而将 PDF 转换为可视化网页这种方式在 AI 加持下门槛很低,人人都可操作。整体思路来自归藏,按此修改的 Prompt 目前在 Claude 3.7 Sonnet 效果最好,其他大模型生成的审美稍差。Prompt 基本复制可用,但细节部分如作者信息和媒体资源要改成自己的内容。媒体资源方面,图片尽量用公链,网上现成图片可右键复制图像链接,自己的图片可使用图床服务托管生成公链,然后用 Markdown 格式贴到媒体资源处。
2025-03-13
有没有参照pdf模仿生成一个类似的ai
以下是关于参照 PDF 模仿生成类似内容的相关信息: 可以用 AI 把 PDF 一键变成能玩的可视化网页。若想插入视频,需找到公网视频地址(如上传本地视频至 Youtube 或 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项,将复制的 HTML 代码粘贴到媒体资源处。对于没有代码预览功能的渠道,可将生成的代码复制到 https://www.yourware.so/ 网站,点 deploy code 稍等即可预览,点 copy link 能分享给朋友。 让 AI 像人类一样思考的步骤包括:输入章鱼哥,把情绪体感构建轮子的 prompt3 粘进去拼到章鱼哥下面,点击发送按钮让模型完成人物解构建构,复制章鱼哥 prompt 给到模型,和章鱼哥聊天看其反应。AI 拟人化的核心在于“体感”的重现,通过解构建构得到四种类型的轮子并合理使用,能让 AI 语言表达重现人类的体感,使其在不同场景中展现像人类一样的思维、情感和行动。 关于教师使用 AI 减负,可先输入讲义 PDF 让 AI 提取知识点,例如在对话框输入“请提取以下 PDF 中的主要知识点”并上传讲义 PDF 文件。
2025-03-13