「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
哪些AI可以实现,把视频中的人声换成另外一个人的
以下是一些可以实现把视频中的人声换成另外一个人的 AI 工具和技术: 1. VoiceSwap 推出的 StemSwap 工具:这是一个基于浏览器的工具,允许用户从完全混音的曲目中轻松快速地更改人声。它可以将歌曲分成四部分,隔离人声,并将其转换为其他歌手的声音。用户可以从授权歌手名单中选择新声音,并下载完整混音或各个音轨。链接:https://www.voiceswap.ai/ 2. 深度伪造技术:利用 AI 程序和深度学习算法实现音视频模拟和伪造,投入深度学习的内容库越大,合成的视音频真实性越高。 3. 粉丝通过 Stems 音轨分离工具将人声与原始歌曲分离,再使用人声转换模型(如 DiffSVC)将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一起。 4. ViggleAI:由一支 15 人团队打造,核心能力是将视频中的角色替换成其他形象。其视频工具背后依赖自家训练的 3D 视频模型「JST1」,能够根据一张角色图片生成 360 度角色动画,可以进行更可控的视频生成。目前支持 Discord 访问和网页版访问,Discord 平台已经积累了超 400 万用户。网页版访问:https://www.viggle.ai/ 官方推特:https://x.com/ViggleAI
2024-11-20
如何开始学习使用ai
以下是新手学习 AI 的建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 6. 对于中学生: 从编程语言入手学习,如 Python、JavaScript 等,学习编程语法、数据结构、算法等基础知识。 尝试使用 AI 工具和平台,如 ChatGPT、Midjourney 等,探索面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 学习 AI 基础知识,包括基本概念、发展历程、主要技术及在各领域的应用案例。 参与 AI 相关的实践项目,如参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试利用 AI 技术解决生活中的实际问题。 关注 AI 发展的前沿动态,关注权威媒体和学者,思考 AI 技术对未来社会的影响。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2024-11-20
语音转文字
以下是关于语音转文字的相关信息: 推荐使用 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 、https://huggingface.co/spaces/sanchitgandhi/whisperjax 。该项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,速度快 70 多倍,是目前最快的 Whisper API。 语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持的输入文件类型包括:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。 转录 API 的输入是音频文件及所需输出格式的音频文字稿,默认响应类型为包含原始文本的 JSON,可通过添加更多带有相关选项的form 行设置其他参数。 翻译 API 输入任意支持语言的音频文件,输出为英文文本,目前仅支持英语翻译。 对于默认情况下 Whisper API 仅支持小于 25MB 的文件,若音频文件更长,需将其分成小于 25MB 的块或使用压缩后格式,可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。 可以使用提示提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。
2024-11-20
给中学生讲一下香农信息熵
香农信息熵是由香农提出的一个重要概念。 对于连续 N 个字符,香农提出了 $F_N$ 这个指标,其表达式为:$F_N = \sum_{b_N}p$ 个人解读如下:香农提出 $F_N$ 背后的洞察是为了引入上下文,所以考察连续 N 个字符的熵,并把常规的 $\mathbf{E}_{p]$,这样就把先验 2 纳入指标设计了。 对 $b_N$ 可以求和是因为可以沿着字符序列 S 不断滑窗得到很多组 $b_N$ 数据。 如果定义 $K_N = \sum_{b_N}p]$ 。 当 N 逐渐增大的时候,$F_N$ 越来越逼近自然语言 L 真正的熵 H,即 $H = \lim_{n\rightarrow\infty}F_n$ 。 对于中学生来说,理解香农信息熵可能会有一定难度,但可以先从基本概念入手,比如熵是用来衡量不确定性或混乱程度的量。在信息领域,信息熵反映了信息的不确定性和信息量的大小。随着学习的深入,再逐步理解更复杂的表达式和概念。
2024-11-20
ai语音生成
以下是为您整理的关于 AI 语音生成的相关内容: 工具推荐: Coqui Studio:https://coqui.ai Bark:https://github.com/sunoai/bark Replica Studios:https://replicastudios.com ElevenLabs:作为一款先进的 AI 语音生成工具,在多语言支持、语音质量和灵活性方面表现出色。其 Multilingual v2 模型支持近 30 种语言,能够生成自然、清晰且情感丰富的语音,几乎可以媲美人类真实声音。精准的声音克隆技术和灵活的定制选项使其适用于各种专业应用场景,从内容创作到客户服务,再到游戏开发和教育等领域。但也存在语言切换问题和对高质量音频样本的依赖可能影响用户体验,定价策略可能限制某些用户群体使用,以及引发伦理、版权和对人类工作影响的讨论等问题。 人工智能音频初创公司: adauris.ai:https://www.adauris.ai/ ,将书面内容转化为引人入胜的音频,并实现无缝分发。 Aflorithmic:https://audiostack.ai/ ,专业音频、语音、声音和音乐的扩展服务。 Sonantic(被 Spotify 收购):https://prnewsroomwp.appspot.com/20220613/spotifytoacquiresonanticanaivoiceplatform/ ,提供完全表达的 AI 生成语音,带来引人入胜的逼真表演。 kroop AI:https://www.kroop.ai/ ,利用合成媒体生成和检测,带来无限可能。 dubverse:https://dubverse.ai/ ,一键使您的内容多语言化,触及更多人群。 Resemble.ai:https://www.resemble.ai/ ,生成听起来真实的 AI 声音。 Replica:https://www.replicastudios.com/ ,为游戏、电影和元宇宙提供 AI 语音演员。 Respeecher:https://www.respeecher.com/ ,为内容创作者提供语音克隆服务。 amai:https://amai.io/ ,超逼真的文本转语音引擎。 AssemblyAI:https://www.assemblyai.com/ ,使用单一 AI 驱动的 API 进行音频转录和理解。 DAISYS:https://daisys.ai/ ,听起来像真人的新声音。 WellSaid:https://wellsaidlabs.com/ ,从真实人的声音创建逼真的合成语音的文本转语音技术。 Deepsync:https://dubpro.ai/ ,生成听起来完全像你的音频内容。
2024-11-20
如何使用coze搭建智能体
以下是使用 Coze 搭建智能体的步骤: 1. 进入 Coze 官网(https://www.coze.cn/home)。 2. 点击「个人空间工作流创建工作流」,打开创建工作流的弹窗。 3. 根据弹窗要求,自定义工作流信息,点击确认完成工作流的新建。 4. 了解编辑视图与功能,左侧「选择节点」模块中,根据子任务需要,实际用到的有: 插件:提供一系列能力工具,拓展智能体的能力边界。如思维导图、英文音频等无法通过 LLM 生成的内容,需依赖插件实现。 大模型:调用 LLM,实现各项文本内容的生成。如中文翻译、英文大纲、单词注释等。 代码:支持编写简单的 Python、JS 脚本,对数据进行处理。 5. 编辑面板中的开始节点、结束节点,分别对应分解子任务流程图中的原文输入和结果输出环节。 6. 按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,完成工作流框架的搭建。 对于图像工作流: 1. 创建图像工作流,图像流分为智能生成、智能编辑、基础编辑三类。 2. 空间风格化插件有相关参数,如 image_url 是毛坯房的图片地址;Strength 是提示词强度,即提示词对效果图的影响度;Style 是生成效果的风格,如新中式、日式、美式、欧式、法式等;user_prompt 是用户输入的 Promot 提示词。 3. 按照构架配置工作流,调试工作流效果,调试毛坯房测试用例(https://tgi1.jia.com/129/589/29589741.jpg)。 4. 开始节点对应配置三项内容,进行提示词优化。 5. 设定人设和回复逻辑,然后点击右上角发布。
2024-11-20
flux lora 训练
以下是关于 Flux 的 Lora 模型训练的详细步骤: 准备工作: 下载所需模型:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意:不使用时模型放置位置不限,只要知道“路径”,后续会引用到“路径”。 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 下载训练脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 数据集准备: 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 步骤一:创建数据集 在数据集一栏中,点击右上角创建数据集。 输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以上传只有图片的文件(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片,但建议提前将图片和标签打包成 zip 上传。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 步骤二:Lora 训练 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 等待训练,会显示预览时间和进度条,训练完成会显示每一轮的预览图。 鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 数据集放置位置:.Flux_train_20.4\\train\\qinglong\\train 运行训练:约 1 2 小时即可训练完成。 验证和 lora 跑图:有 ComfyUI 基础的话,直接原版工作流的模型后面,多加一个 LoraloaderModelOnly 的节点就可以,自行选择您的 Lora 和调节参数。
2024-11-20
写作类,尤其是政府或大型企业写作类工具推荐
以下是为您推荐的政府或大型企业写作类工具: 内容仿写工具: 秘塔写作猫:https://xiezuocat.com/ 。它是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,还能实时同步翻译。支持全文改写,一键修改,实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作:https://ibiling.cn/ 。是智能写作助手,适用于多种文体写作,支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作:https://effidit.qq.com/ 。由腾讯 AI Lab 开发的智能创作助手,能提升写作效率和创作体验。 更多 AI 写作类工具可查看:https://www.waytoagi.com/sites/category/2 。 AI 新闻写作工具: Copy.ai :功能强大,提供丰富的新闻写作模板和功能,可快速生成新闻标题、摘要、正文等。 Writesonic :专注写作,提供新闻稿件生成、标题生成、摘要提取等功能,智能算法能快速生成高质量新闻内容。 Jasper AI :主打博客和营销文案,也可用于生成新闻类内容,写作质量较高,支持多种语言。 辅助写邮件的 AI 工具: Grammarly :提供语法检查、拼写纠正、风格建议和语气调整等功能,易于使用,支持多种平台和语言,网站:https://www.grammarly.com/ 。 Hemingway Editor :简化句子结构,提高可读性,标记复杂句和冗长句,界面简洁,网站:http://www.hemingwayapp.com/ 。 ProWritingAid :全面的语法和风格检查,提供详细写作报告和建议,功能强大,支持多种平台和集成,网站:https://prowritingaid.com/ 。 Writesonic :基于 AI 生成各种类型文本,包括电子邮件等,生成速度快,网站:https://writesonic.com/ 。 Lavender :专注邮件写作优化,提供个性化建议和模板,提高邮件打开率和回复率。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-20
推荐灵魂级音乐生成器
以下为您推荐几款灵魂级音乐生成器: 1. Suno: 简介:被誉为音乐界的 ChatGPT,是一款革命性的 AI 驱动歌曲生成器,能根据简单提示创造出完整音乐作品。 地址:https://www.suno.ai/ 账号要求:需要拥有 Discord、谷歌或微软中的至少一个账号,确保网络环境稳定。 订阅信息: 免费用户:每天 50 积分,每首歌消耗 5 积分,每天可创作 10 首歌曲,每次点击生成两首歌曲。 Pro 用户:每月 2500 点数(约 500 首歌),按月每月 10 美元,按年每月 8 美元,每年 96 美元。 Premier 用户:每月 10000 点数(约 2000 首歌),按月每月 30 美元,按年每月 24 美元,每年 288 美元。 点击 Create 模式: 默认模式:关闭个性化,可描述歌曲、设置乐器开关、选择模型 v3。 个性化模式:开启个性化定制,可填写歌词、设置曲风、标题等。 生成歌词:可使用大模型如 Kimi、GPT、文心一言等生成。 开始生成:填写好所需内容后点击 Create,等待 2 3 分钟即可。 2. 相关歌词提示词: 柔和的原声乐器引子:在歌曲开头使用柔和的原声乐器(如原声吉他或钢琴)演奏,适用于民谣、流行音乐、乡村音乐。 富有灵魂感:增强音乐的情感深度和感染力,适用于灵魂乐、R&B、流行音乐。 富有灵魂感的桥段:在歌曲中间或过渡部分增强情感深度和结构变化,适用于灵魂乐、R&B、流行音乐。 口语:增加音乐叙述性和亲密感,适用于说唱、独立音乐、实验音乐。 福音合唱团:增加音乐情感深度和和声效果,适用于福音音乐、灵魂音乐、R&B。 垃圾摇滚:增加音乐力量感和反叛精神,适用于摇滚、垃圾摇滚、另类摇滚。 垃圾摇滚失真:增强音乐力量感和反叛精神,适用于摇滚、垃圾摇滚、另类摇滚。 吉他独奏:增强音乐情感深度和表现力。
2024-11-20
入门推荐AI工具
以下是为您推荐的入门 AI 工具: Kimi 智能助手: 是 ChatGPT 的国产平替,上手体验好,推荐新手使用来入门学习和体验 AI。 不用科学上网、不用付费、支持实时联网。 是国内最早支持 20 万字无损上下文的 AI,也是目前对长文理解做得最好的 AI 产品。 能一次搜索几十个数据来源,无广告,能定向指定搜索源(如小红书、学术搜索)。 PC 端: 移动端(Android/ios): 内容仿写 AI 工具: 秘塔写作猫:https://xiezuocat.com/ 是 AI 写作伴侣,能帮您推敲用语、斟酌文法、改写文风,还能实时同步翻译。支持全文改写,一键修改,实时纠错的同时一并给出修改建议,智能分析文章的各类属性,用人工智能为您的文章正负情感、情绪强度和易读性打分。 笔灵 AI 写作:https://ibiling.cn/ 是得力的智能写作助手,心得体会、公文写作、演讲稿、小说、论文等都能应对,支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作:https://effidit.qq.com/ 智能创作助手 Effidit 由腾讯 AI Lab 开发,能提升写作者的写作效率和创作体验。 更多 AI 写作类工具可以查看这里:https://www.waytoagi.com/sites/category/2 (内容由 AI 大模型生成,请仔细甄别。) 此外,如需下载研究报告,我们诚邀您加入知识星球:https://t.zsxq.com/18DnZxlrl (数百份涵盖 AI 各个方面的报告,并提供内容概要,自 2023 年上半年建立以来,保持长期活跃更新。扫码右侧二维码,加入知识星球。更多合作与咨询:https://waytoagi.feishu.cn/wiki/Wj77wBWjbi0yUAkyJWdc2TKFnmd )
2024-11-19