直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
AI大模型应用面试题
以下是一些与 AI 大模型应用相关的面试题: 在游戏行业,大模型不仅能降低成本,还能打造创新玩法,如网易的《逆水寒》在美术开发、NPC 与玩家交互等方面的应用。请问您对这种应用的看法和理解? 在人力资源管理领域,AI 覆盖了从招聘到员工绩效评估等各个环节。请谈谈您对这种应用的认识以及其可能带来的影响。 在基础办公提效方面,如 PPT、Excel 等,AI 能从单个任务到角色协同显著提高工作效率。您认为这种提高在实际工作中的具体表现和重要性如何? 对于健身行业中的 AI 减重顾问,既能解决售前客服问题,又能进行健康监护,您如何看待这种应用的前景和挑战? 如何在 10 分钟内在网站上增加一个 AI 助手?比如创建大模型问答应用,包括获取大模型的推理 API 服务等步骤。 作为 AIGC 产品经理,在大模型方面,如对算法的熟悉程度、了解的大模型及其评价、快速体验各种模型的方法、大模型应用落地中注入领域知识的方式、大模型应用的评测、保证大模型价值观无害、对 PE 的理解及相关案例、对大模型微调及 RAG 的理解和优势、用大模型解决传统模型无法解决的业务问题、大模型面临的新安全危险及解决方法、幻觉的产生及解决手段等方面,您有怎样的见解和经验?
2025-02-07
Coze教程
以下是关于 Coze 的教程: 一泽 Eze 的教程: 可能是全网最好的 Coze 教程之一,能一次性带您入门 Coze 工作流。 即使是非技术出身的爱好者也能上手跟学,一站式学会 AI Agent 从设计到落地的全流程方法论。 阅读指南:长文预警,请视情况收藏保存。 核心看点:通过实际案例逐步演示,用 Coze 工作流构建能稳定按模板要求生成结构化内容的 AI Agent;开源 AI Agent 的设计到落地的全过程思路;10+项常用的 Coze 工作流的配置细节、常见问题与解决方法。 适合人群:任何玩过 AI 对话产品的一般用户(若没用过,可先找个国内大模型耍耍);希望深入学习 AI 应用开发平台(如 Coze、Dify),对 AI Agent 工作流配置感兴趣的爱好者。 注:本文不单独讲解案例所涉及 Prompt 的撰写方法。文末「拓展阅读」中,附有相关 Prompt 通用入门教程、Coze 其他使用技巧等内容,以供前置或拓展学习。 大圣的教程: Coze 概述:字节的官方解释为 Coze 是新一代一站式 AI Bot 开发平台,无论是否有编程基础,都可在其上快速搭建基于 AI 模型的各类问答 Bot,从解决简单问答到处理复杂逻辑对话,并能将搭建的 Bot 发布到各类社交平台和通讯软件上互动。个人认为 Coze 是字节针对 AI Agent 领域的初代产品,在 Coze 中称 AI Agent 为 Bot。字节针对 Coze 部署了国内版和海外版两个站点。 国内版:网址为 https://www.coze.cn ,官方文档教程为 https://www.coze.cn/docs/guides/welcome ,使用字节自研的云雀大模型,国内网络可正常访问。 海外版:网址为 https://www.coze.com ,官方文档教程为 https://www.coze.com/docs/guides/welcome ,使用 GPT4、GPT3.5 等大模型(可参考文档白嫖 ChatGPT4),访问需要突破网络限制的工具,参考文档:https://www.coze.com/docs/zh_cn/welcome.html 。 AI Agent 的开发流程:Bot 的开发和调试页面布局主要分为提示词和人设的区块、Bot 的技能组件、插件、工作流、Bot 的记忆组件、知识库、变量、数据库、长记忆、文件盒子、一些先进的配置、触发器(例如定时发送早报)、开场白(用户和 Bot 初次对话时,Bot 的招呼话语)、自动建议(每当和 Bot 一轮对话完成后,Bot 给出的问题建议)、声音(和 Bot 对话时,Bot 读对话内容的音色),下面会逐一讲解每个组件的能力以及使用方式。
2025-02-07
免费制作数字人的网站或者工具
以下是一些免费制作数字人的网站或者工具: 1. HeyGen:这是一个 AI 驱动的平台,能够创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。它支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 另外,在剪映中也可以制作数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中。 为让视频更美观,可增加背景图片。点击左上角“媒体”菜单并“导入”,选择本地图片上传,添加到视频轨道上,可调整图片大小和位置。 剪映作为字节跳动旗下产品,具有诸多优势,其六大 AI 功能解决了用数字人做视频的痛点。制作流程为:首先打开剪映,添加文本到文字轨道并修改朗读文字,然后点击朗读进行声音克隆,选择喜欢的数字人形象并换上克隆音色,最后一键智能生成字幕,自行调整文字样式并校准。 剪映下载地址: 。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。内容由 AI 大模型生成,请仔细甄别。
2025-02-07
制作数字人
以下是关于制作数字人的相关内容: 生成数字人: 在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 为让视频更美观,可增加背景图片。先删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”选择本地图片上传,将图片添加到视频轨道(会覆盖数字人),拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,调整图片大小和数字人位置。 制作数字人的工具: HeyGen:AI 驱动的平台,可创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真会说话的视频。 更多数字人工具请访问网站:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 增加字幕:点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角“导出”按钮导出视频备用。若希望数字人换成自己希望的面孔,则需要用另一个工具进行换脸。
2025-02-07
ComfyUI教程
以下是一些关于 ComfyUI 的学习教程资源: 1. ComfyUI 官方文档:提供使用手册和安装指南,适合初学者和有经验的用户,可在获取相关信息。 2. 优设网:有详细的 ComfyUI 入门教程,适合初学者,介绍了特点、安装方法及生成图像等内容,教程地址是。 3. 知乎:有用户分享了 ComfyUI 的部署教程和使用说明,适合有一定基础并希望进一步了解的用户,可在找到相关教程。 4. Bilibili:提供了从新手入门到精通各个阶段的系列视频教程,可在查看。 此外,还有以下教程: 1. 一个全面的 ComfyUI 教程:https://www.comflowy.com/zhCN 2. 超有意思的 ComfyUI 教程:https://comfyanonymous.github.io/ComfyUI_tutorial_vn/ ComfyUI 基础教程中关于 KSampler 的部分: KSampler 即采样器,包含以下参数: 1. seed:随机种子,用于控制潜空间的初始噪声,若要重复生成相同图片,需种子和 Prompt 相同。 2. control_after_generate:设置每次生成完图片后 seed 数字的变化规则,有 randomize(随机)、increment(递增 1)、decrement(递减 1)、fixed(固定)。 3. step:采样的步数,一般步数越大效果越好,但与使用的模型和采样器有关。 4. cfg:一般设置在 6 8 之间较好。 5. sampler_name:可通过此设置采样器算法。 6. scheduler:控制每个步骤中去噪的过程,可选择不同调度算法。 7. denoise:表示要增加的初始噪声,文生图一般默认设置为 1。 内容由 AI 大模型生成,请仔细甄别。
2025-02-07
免费数字人播报的相关工具
以下为您推荐免费数字人播报的相关工具: 1. 开源且适合小白用户的工具: 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G + 3G 语音模型包,启动模型即可。 GitHub: 官网: 2. 剪映: 优势:作为字节跳动旗下的产品,在抖音平台上被广泛应用。剪映海外版 CapCut 登顶过美国 App Store,在全球各国 App Store 和 Google Play 平台上的安装总量已超过 2.5 亿次,在美国市场内的安装总量接近 950 万次。其六大 AI 功能解决了用数字人做视频的痛点,在编辑器里就能完成脚本生成→语音克隆→数字人口播的环节。 下载地址: 剪映: capcut: 制作流程: 首先打开剪映,添加一个文本到文字轨道,并修改好需要朗读的文字。 点击朗读,并进行声音克隆,剪映的声音克隆现在只用念一句话就可以完成克隆。 克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去。 最后,一键智能生成字幕,再自行调整文字样式并校准。 此外,还有 Google Veo 2,其生成的视频接近真实,几乎难以分辨,适合创作和内容制作。
2025-02-07
哪个ai工具可以让模糊的老照片变清晰
以下是一些可以让模糊的老照片变清晰的 AI 工具和方法: 1. 使用 Stable Diffusion : 将照片放入后期处理中,使用 GFPGAN 算法将人脸变清晰。您可以参考文章——。 将图片发送到图生图当中,打开 stableSR 脚本,放大两倍。这个放大插件是所有插件中对原图还原最精准、重绘效果最好的。您可以参考文章——。切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可以什么都不写,以免对原图产生干扰。 为了做到颜色与内容的统一,可以启用之前讲到过的一款 cutoff 插件来进行控制,依次按顺序设置好颜色提示词。您可以参照文章——。 2. 图像放大修复在 AI 绘画领域中必不可少,旧照片重现清晰可以利用 AI 技术进行图像修复,保留珍贵回忆。以前手机拍摄的低分辨率图片,也可以用 AI 技术进行高清修复。人像高清修复方面,不需要专业相机设备,用手机拍摄的照片也能通过 AI 技术修复至高清大片。而且,AI 技术不单单只是修复图片,还可以用于图像分辨率的无限扩大且不失真。例如马斯克原始图像分辨率为 234x180 像素,高清修复扩图后可达到 1880x1440 像素,差不多达到 2k 分辨率的质量。多进行几次采样放大后,完全可以实现 8k 超清放大。
2025-02-07
agi是什么
AGI 即人工通用智能(Artificial General Intelligence),是指能够像人类一样执行任何智力任务的人工智能。 目前 AGI 还未取得巨大进展,而与之相对的 ANI(Artificial Narrow Intelligence,弱人工智能)已得到巨大发展。ANI 只能完成特定的任务,如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。 OpenAI 在其内部会议上分享了 AGI 的五个发展等级: 1. 聊天机器人(Chatbots):具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者(Reasoners):具备人类推理水平,能够解决复杂问题,如 ChatGPT,能根据上下文和文件提供详细分析和意见。 3. 智能体(Agents):不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者(Innovators):能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可预测蛋白质结构,加速科学研究和新药发现。 5. 组织(Organizations):最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 此外,Web3 和人工智能初创公司 AGII 获得 1500 万美元融资,AGII 是一个 AI 驱动的平台,赋予用户轻松生成各个领域高质量内容的能力,提供一系列 AI 生成器和魔法工具,包括文本、图像、代码、聊天机器人、语音转文本和配音等功能。
2025-02-07
推荐免费的tts公有模型站点,需要支持中文,克隆自己的声音
以下为您推荐支持中文且能克隆自己声音的免费 TTS 公有模型站点: GPTSoVITS: 只需 1 分钟语音即可训练一个自己的 TTS 模型。 5 秒数据就能模仿您,1 分钟的声音数据就能训练出一个高质量的 TTS 模型,完美克隆您的声音,且适配中文,界面易用。 主要特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,您可以直接下载使用。 GitHub: 视频教程: 需要注意的是,Stuart 模型存在一些问题: 语音生成基本功能方面: 支持的语音时长不超过 30 秒,超过 30 秒的需要特别修复。 某些 audio seed 在念某些语句时会丢失一些语句。 Refine 过程中有些字会被丢失,比如“儿童节”在大概率会被 refine 成“童节”,丢失一个“儿”字。解决方法是跳过自动 refine,以手动修改文本的方式来控制停顿。 即使同一个 audio seed,如果使用不同的语句分段方式,或者不同的 text seed,生成的音色也不是很稳定,会给人感觉不是同一个人的声音。 代码 Bug: uv_break 等提示词可能会在 refine 之后缺少,甚至有时候在有中括号的情况下也会被念出来。 没提供微调 SFT 的接口。 本模型特别申明:不支持商用,仅用于学术研究。在生成的语音内,作者加了听不见的噪音水印,可以很容易的被检测出来是他的模型生成的语音。ChatTTS 还没放出训练代码无法自己克隆声音,作者还只放出了 4w 小时训练的版本,确保这个模型的声音能被 AI 检测出来。作者还留着一个 10w 小时训练数据的版本。
2025-02-07
推荐免费的tts模型站点,需要支持中文
以下为您推荐两个免费的支持中文的 TTS 模型站点: 1. Fish Speech:语音处理接近人类水平,约十五万小时三语数据,对中文支持完美。开发者为 fishaudio,具有亿级参数,高效轻量,可在个人设备上运行和微调,适合作为私人语音助手。详细介绍及更多演示:https://xiaohu.ai/p/10779 ,GitHub:https://github.com/fishaudio/fishspeech 。 2. GPTSoVITS:只需 1 分钟语音即可训练一个自己的 TTS 模型,是一个声音克隆和文本到语音转换的开源 Python RAG 框架。5 秒数据就能模仿您,1 分钟的声音数据就能训练出一个高质量的 TTS 模型,完美克隆您的声音,完美适配中文。GitHub: 。
2025-02-07