直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
F5-TTS有相关的文章吗?
上海交通大学开源了 F5TTS 语音合成技术,这是一种完全非自回归的文本到语音系统,通过流匹配与扩散变换器实现。它简化了传统的 TTS 系统设计,不需要复杂的时长模型、文本编码器和音素对齐,而是将文本输入用填充标记填充到与输入语音相同的长度,并利用 ConvNeXt 模型对文本表示进行细化以与语音对齐。 F5TTS 的模型特点包括: 1. 零样本声音克隆。 2. 速度控制(基于总时长)。 3. 可以控制合成语音的情感表现。 4. 长文本合成。 5. 支持中文和英文多语言合成。 6. 在 10 万小时数据上训练。 7. 最重要的是支持商用。 相关链接: 1. 论文: 2. 模型下载: 3. 演示 Demo:https://huggingface.co/spaces/mrfakename/E2F5TTS
2024-11-01
提示词可以在哪里下载
以下是一些可以获取提示词的途径: Dynamic Prompts 插件:勾选魔法提示词,一般选中后会后台下载提示词模型,每个大概 800m。您可以通过上面的 url 去详细了解其他的 prompt 模型。 相关网站: Majinai: 词图: Black Lily: Danbooru 标签超市: 魔咒百科词典: AI 词汇加速器: NovelAI 魔导书: 鳖哲法典: Danbooru tag: AIBooru: 老六提示词插件:其 GITHUB 下载链接是:https://github.com/thisjam/sdwebuioldsixprompt ,也可在作者的网盘链接中下载。
2024-11-01
车载ai智能体
车载 AI 智能体是一种应用于车辆领域的智能体。 智能体一般被赋予更高级的目标,并拥有更多实现目标的方法和工具选择自由度。同时,受程序性知识指导,遵循组织期望的执行方式,拥有预定义工具,并受保护栏和审查措施约束。 在应用方面,智能体在各种领域扮演重要角色,如: 1. 自动驾驶:感知周围环境,做出驾驶决策。 2. 家居自动化:根据环境和用户行为自动调节设备。 3. 游戏 AI:游戏中的对手角色和智能行为系统。 4. 金融交易:根据市场数据做出交易决策。 5. 客服聊天机器人:通过自然语言处理提供客户支持。 6. 机器人:各类机器人中集成的智能控制系统。 设计和实现一个智能体通常涉及以下步骤: 1. 定义目标:明确需要实现的目标或任务。 2. 感知系统:设计传感器系统采集环境数据。 3. 决策机制:定义决策算法,根据感知数据和目标做决策。 4. 行动系统:设计执行器或输出设备执行决策。 5. 学习与优化:若为学习型智能体,设计学习算法以改进。 领先的智能体公司似乎正在收敛于一种在自主性和控制之间寻找折衷的架构。新兴的 AI 智能体示例包括;以及横跨销售、安全运营和供应链等领域的许多其他智能体。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-01
数字人直播
以下是关于数字人直播的相关信息: 会议讨论要点: 目前做数字人电商直播,可能只是因为前期宣传及未发现其他更好场景。 数字人配套的运营服务才是电商领域的关键,续费客户多因服务而非数字人本身。 数字人直播在店播场景效果较好,数据能与真人相当。 不建议商家依赖数字人,现阶段数字人服务多为辅助。 盈利方式: 直接卖数字人工具软件,分实时驱动(一年 4 6 万往上)和非实时驱动(一个月 600 元,效果差,市场价格混乱)两类。 提供数字人运营服务,按直播间成交额抽佣。 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;不适用于服装,过品快且衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 不适用于促销场景,涉及主播话术、套路及调动直播间氛围能力等。 店播场景效果最佳,数据基本能保持跟真人一样。 壁垒和未来市场格局: 长期看技术上无壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如全环节打通会绑定商家。 数字人简介: 数字人是运用数字技术创造出来的,虽现阶段不能高度智能,但在生活各类场景中已常见。业界尚无准确定义,一般按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,应用于影视和直播带货,表现质量与建模精细度及动捕设备精密程度相关,视觉算法进步使无昂贵设备也能有不错效果。
2024-11-01
实景数字人
以下是关于实景数字人的相关信息: AI 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(如柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制(如 Heygen)、语言学习(如 CallAnnie)等。 AI 数字人的价值: 1. 代替人说话,提升表达效率和营销效率。例如真人无法 24 小时直播,但数字人可以。 2. 创造真实世界无法完成的对话或交流。比如 AI talk 的实验探索,复活故去的亲人等。 AI 数字人面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不够刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:存在声音、影像版权等问题,比如换脸、数字永生等。 如何构建高质量的 AI 数字人: 1. 构建数字人灵魂:让数字人具备各种智能,如记住个人信息、充当个人助手、在某个领域具备专业知识、处理复杂任务等。实现这些能力有几个工程关键点,包括写像人一样思考的 AI Agent,面临记忆模块、工作流模块、工具调用模块的构建挑战;灵魂部分驱动躯壳的实现,要定义灵魂部分的接口,躯壳通过 API 调用,注意包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做逻辑判断来播放预设,语音驱动口型相对成熟但闭源;要解决实时性问题,由于算法部分庞大,几乎不能单机部署,特别是大模型部分,会涉及网络耗时和模型推理耗时,低延时是亟需解决的问题;实现多元跨模态,不仅是语音交互,还可根据需求添加其他感官,如视觉通过添加摄像头数据和 CV 算法做图像解析等;处理拟人化场景,如插话、转移话题等情况,实现工程上的丝滑处理。 2. 虚拟数字人的分类和驱动方式:从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限,缺乏高并发和量产化能力。AI 驱动使用 AI 技术创建、驱动和生成内容,赋予交互能力。从应用层面分为服务型、表演型和身份型。服务型虚拟数字人如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。表演型如虚拟偶像用于娱乐、影视等。身份型是物理世界“真人”的数字分身,在元宇宙中有广泛应用。 以上讨论的虚拟数字人是 AI 驱动的,主要集中于服务型虚拟数字人,强调其具有功能属性,隶属于业务层。
2024-11-01
国内免费的AIGC平台有哪些?
以下是一些国内免费的 AIGC 平台: haiper:网址为 https://app.haiper.ai/ 。 PixVerse:网址为 https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。 Leiapix:网址为 https://www.leiapix.com/ ,可以把一张照片转动态。 如果您希望自行部署 AIGC 服务,以下云服务平台可供选择: AWS(亚马逊云服务):提供多种 AI 服务,如 SageMaker、Rekognition、Polly 等,资源丰富,灵活性强,但费用相对较高,适合需求复杂、要求高可用的企业用户。 Google Cloud Platform:推出 Vertex AI 和多款预训练模型供使用,支持多种编程语言和框架,具有领先的计算机视觉和语音识别能力。 Microsoft Azure:Azure 机器学习服务涵盖多种 AI 工作负载,与微软其他产品融合度高,提供硬件加速等优化方案。 Huawei Cloud:提供 ModelArts 等 AI 开发和推理平台,融合 Ascend AI 处理器实现硬件加速,针对本地化部署和行业应用进行了优化。 阿里云:提供 PAI 和机器学习平台等 AI 产品,支持主流深度学习框架部署,与阿里云其他产品生态集成度高。 AIGC(人工智能生成内容)是一种利用人工智能技术生成各种类型内容的应用方式,能够通过机器学习和深度学习算法,根据输入的数据和指令生成符合特定要求的内容,在内容创作、广告、媒体等领域有着广泛的应用。AIGC、UGC(用户生成内容)和 PGC(专业生成内容)都是内容生成的不同方式,主要区别在于内容的创作者和生成方式。UGC 由用户通过社交媒体等平台发布自己的内容,优势在于内容丰富多样,能反映用户真实想法和创意,适用于社交媒体等互动性强的平台。PGC 由专业人士或机构根据特定标准和流程创作高质量内容,优势在于内容质量高、专业性强,适用于新闻媒体等需要高质量内容的平台。
2024-11-01
我想修改图片
以下是关于修改图片的相关信息: DALL·E 编辑功能: 可以在 DALL·E 编辑器界面右侧的对话面板中输入提示来更改图片,例如输入“make it black and white”将图像更新为黑白。 在 ChatGPT 移动应用程序上使用 DALL·E 进行编辑,选择左下角的“编辑”调出提示选项。 选择“Select”访问选择工具,点击可突出显示要编辑的图像部分,屏幕左侧的滑块可更改图片大小。 选择完要编辑的图像部分,选择屏幕右下角的“Next”按钮,弹出对话面板输入提示进行更改。 支持对生成图片进行二次编辑,包括替换、删除、添加对象。 了解 DALL·E 编辑器界面的可用工具,如左上角可拖动改变更新区域大小的工具,还有“撤销、恢复”按钮和“Clear Selection”选项。 编辑示例包括添加樱花、删除鸟类、更改猫的表情等,编辑完成后记得点击保存。 帮助文档:https://help.openai.com/en/articles/9055440editingyourimageswithdalle Midjourney 图片编辑器: 新编辑器功能强大,可增加主体、扩图、添加文字等。 进入方式:打开 MJ 官网(https://www.midjourney.com),选择要修改的图片,点击图片,然后点击右下角的 Editor 按钮进入图片编辑器页面。 玩法包括增加主体数量(如把“2 只狐狸”改成“4 只狐狸”)、轻松扩图(自由放大、缩小或移动图片)、扩图+增加主体(如把原图缩放至左下角,涂抹空白区域并修改关键词)、添加文字。 注意:Midjourney 部分操作目前 discord 暂不支持。新生成的主体必须与原图一致,不能无中生有。
2024-11-01
神经网络
神经网络是机器学习文献中的一类模型,受到生物神经网络的启发,是一种特定的算法,能应用于从输入到输出空间复杂映射的各类机器学习问题。 神经网络的发展历程如下: 早期,康奈尔航天实验室的 Mark I 感知机是第一台感知机的硬件,罗森布拉特用定制硬件的方法实现了感知机的想法,展示出它可对简单形状进行正确分类,自此机器学习问世。 神经网络本质上是多层感知机,在早期只有一层输出层。例如分辨手写数字时,输入是图像像素,有 10 个输出神经元,分别对应 10 个可能的数字,权值最高的和被视为正确输出。 神经网络的架构主要分为三类: 前馈神经网络:这是实际应用中最常见的类型。第一层是输入,最后一层是输出。若有多个隐藏层,则称为“深度”神经网络。各层神经元的活动是前一层活动的非线性函数。 循环网络:在连接图中有定向循环,可按箭头回到起始点。其动态复杂,训练难度大,但更具生物真实性。 Geoffrey Hinton 对神经网络的发展做出了重要贡献。早在 80 年代初期,他和同事开展研究时,因电脑性能限制成果有限,且当时 AI 主流研究方向不同,处境艰难。但他们坚持下来,到 2004 年创立了 Neural Computation and Adaptive Perception 项目。随着时间推移和计算机能力发展,神经网络更加快速、灵活、高效和可扩展。 神经网络可用于解决分类和回归等问题,在多个输出值的函数或具有多个类别的分类任务中,多输出函数能用位于同一层的多个感知机来学习。
2024-11-01
建筑设计的AI工具
以下是一些能够帮助建筑设计师审核规划平面图的 AI 工具: 1. HDAidMaster:这是一款云端工具,建筑师能在平台上使用主流的 AIGC 功能进行有趣的集卡式方案创作,在建筑设计、室内设计和景观设计领域表现出色,搭载了自主训练的建筑大模型 ArchiMaster,软件 UI 和设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有 AI 技术探索,设计师输入房间面积需求和土地约束,软件能自动生成户型图并查看详细设计结果。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,为设计师提供全新设计模式,在住宅设计早期阶段可引入标准和规范约束 AI 生成的设计结果,保证设计合规性。 4. Fast AI 人工智能审图平台:从住宅设计图构件开始,形成全自动智能审图流程,将建筑全寿命周期内信息集成,实现数据汇总与管理。 每个工具都有特定应用场景和功能,建议根据具体需求选择合适的工具。 以下是一些制作网站的 AI 工具: 1. Wix ADI:基于用户提供的信息自动生成定制化网站,提供多个设计选项和布局,集成了 SEO 工具和分析功能。 2. Bookmark:AIDA 通过询问用户几个简单问题快速生成网站,提供直观拖放编辑器和多种行业模板及自动化营销工具。 3. Firedrop:Sacha 是其 AI 设计助手,可根据用户指示创建和修改网站设计,提供实时编辑和预览功能,包含多种现代设计风格和自定义选项。 4. The Grid:Molly 是其 AI 设计助手,可自动调整网站设计和布局,基于内容和用户互动优化,支持多种内容类型。 以下是一些可以画逻辑视图、功能视图、部署视图的工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,可拖放创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,包括逻辑视图、功能视图和部署视图。 3. ArchiMate:开源建模语言,与 Archi 工具一起使用,支持逻辑视图创建。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板创建各种视图。 6. draw.io:免费在线图表软件,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。
2024-11-01
如何用AI进行建筑设计
以下是关于如何用 AI 进行建筑设计的相关内容: 能够帮助建筑设计师审核规划平面图的 AI 工具: 1. HDAidMaster:云端工具,建筑师可使用主流 AIGC 功能进行集卡式方案创作,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster,软件 UI 和设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型和室内软装设计方面有 AI 技术探索,能根据输入的房间面积需求和土地约束自动生成户型图。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期可引入标准和规范约束生成的设计结果,保证合规性。 4. Fast AI 人工智能审图平台:形成全自动智能审图流程,将建筑全寿命周期内的信息集成,实现数据汇总与管理。 使用 AI 进行室外设计的最佳实践: 1. 充分利用 AI 的创意生成能力,输入关键词生成多种创意方案,获取新颖灵感。 2. 结合 AI 的模拟和可视化功能,利用 AR/VR 等技术在实际环境中模拟和评估设计方案。 3. 运用 AI 的分析和优化能力,对采光、动线、材料等方面进行优化,满足实际需求。 4. 借助 AI 的自动化设计功能,自动生成符合规范的平面图、立面图等,提高效率。 5. 融合 AI 与人工设计的协作模式,发挥各自优势,在各环节充分利用 AI 能力。 关于 AI 绘画: AI 绘画是利用人工智能技术通过算法和模型让计算机生成具有艺术效果的图像。早期成果简单粗糙,随着技术进步,特别是深度学习算法应用,能生成更复杂、逼真和富有创意的图像,涵盖各种风格和题材,并在与人类艺术家互动融合中不断创新。其在广告设计、游戏开发、影视制作、建筑设计等领域有广泛应用,如广告的创意概念图生成、游戏的场景和角色创建、影视的特效场景和概念设计辅助、建筑的外观和内部布局构想等。您可以体验《AI 绘画助手》: ,BotID:7387390303403671587
2024-11-01