Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

提取音频中的文字

Answer

以下是为您整理的相关内容:

  • 在 TTS 超全教程中,语音合成的文本前端作用是从文本中提取发音和语言学信息,任务包括文本正则化、将特殊符号和数字转换为文本、韵律预测、字形转音素、处理多音字和变调等。例如,“1.5 元”需转换成“一点五元”,“中国”要转化为拼音“zhong1 guo2”,还要准确判断“模型”“模样”中“模”字等多音字及“一个”“看一看”中“一”字的特殊发音情况,否则可能导致后续声学模型合成错误声学特征和不正确语音。
  • Suno 专属音乐生成功能上线,视频会根据画面匹配生成音乐,视频里的文字也可识别并转化为歌词,大家可尝试生成随手拍内容。
  • XiaoHu.AI 日报 10 月 28 日提到 NotebookLlama:Meta 的播客生成教程,包括使用 Llama 模型从 PDF 中提取文本生成干净的.txt 文件,转化文本为播客转录并进行戏剧化处理,最终将文本转换为播客音频,支持多种 TTS 模型。详细介绍链接:[https://xiaohu.ai/p/15036],GitHub 链接:[https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama]
Content generated by AI large model, please carefully verify (powered by aily)

References

TTS超全教程

文本前端文本前端的作用是从文本中提取发音和语言学信息,其任务至少包括以下四点。2.1.文本正则化2.2.在语音合成中,用于合成的文本存在特殊符号、阿拉伯数字等,需要把符号转换为文本。如"1.5元"需要转换成"一点五元",方便后续的语言学分析。2.3.韵律预测2.4.该模块的主要作用是添加句子中韵律停顿或起伏。如"在抗击新型冠状病毒的战役中,党和人民群众经受了一次次的考验",如果停顿信息不准确就会出现:"在/抗击/新型冠状病毒/的/战役中,党/和/人民群众/经受了/一次/次/的/考验"。"一次次"的地方存在一个错误停顿,这将会导致合成语音不自然,如果严重些甚至会影响语义信息的传达。2.5.字形转音素2.6.将文字转化为发音信息。比如"中国"是汉字表示,需要先将其转化为拼音"zhong1 guo2",以帮助后续的声学模型更加准确地获知每个汉字的发音情况。2.7.多音字和变调2.8.许多语言中都有多音字的现象,比如"模型"和"模样",这里"模"字的发音就存在差异。另外,汉字中又存在变调现象,如"一个"和"看一看"中的"一"发音音调不同。所以在输入一个句子的时候,文本前端就需要准确判断出文字中的特殊发音情况,否则可能会导致后续的声学模型合成错误的声学特征,进而生成不正确的语音。

Suno 专属音乐生成功能上线了

[adamantium-temp-file-0145D456-DE8E-4D91-B1BA-FB9546FE0F0B.MP4](https://bytedance.feishu.cn/space/api/box/stream/download/all/LRDMbJEgso49LCxvBEacNCcnnCb?allow_redirect=1)[adamantium-temp-file-65A466A7-92EC-447C-B367-4F3B4A560252.MP4](https://bytedance.feishu.cn/space/api/box/stream/download/all/TLuMbvYbaoanP3xyohZcUDxmnH7?allow_redirect=1)[ScreenRecording_10-17-2024 18-45-58_1.mov](https://bytedance.feishu.cn/space/api/box/stream/download/all/HhPfbD2E3oOqeLxAUpcc0zChn6f?allow_redirect=1)[adamantium-temp-file-995E3262-6810-4822-8EA3-BE8AD2F949C7.MP4](https://bytedance.feishu.cn/space/api/box/stream/download/all/LIWqbDb0EoeOvPx2WUJcKvxfnKe?allow_redirect=1)视频会根据画面匹配生成音乐,音乐和视频还卡上了点(案例2)视频里的文字也可以识别并转化为歌词;大家也可以试着生成一些随手拍的内容,感兴趣的可以去试试~[heading2]共创:

XiaoHu.AI日报

?Xiaohu.AI日报「10月28日」✨✨✨✨✨✨✨✨?️NotebookLlama:Meta的播客生成教程使用Llama模型从PDF中提取文本,生成干净的.txt文件。转化文本为播客转录,创造富有创意的内容。对转录进行戏剧化处理,提高互动性和吸引力。最终将文本转换为播客音频,支持多种TTS模型。?详细介绍:[https://xiaohu.ai/p/15036](https://xiaohu.ai/p/15036)?GitHub:[https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama](https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama)

Others are asking
ai音频排名
以下是关于 AI 音频排名的相关信息: 生成式 AI 季度数据报告 2024 年 1 3 月: 音频大类: 2023 年 4 月: 月访问量为 3838.1 万,Eleven Labs 以 814 万的访问量位居第一,占赛道月总访问量的 21.2%。Speechify 和 Murf AI 分别以 681 万和 431 万的访问量位列二、三,分别占赛道月总访问量的 17.7%和 11.2%。 2024 年 3 月: 月访问量增长至 5016.3 万,Eleven Labs 以 1962 万的访问量继续保持第一,占赛道月总访问量的 39.1%。TTSMaker 和 Speechify 分别以 418 万和 706 万的访问量位列二、三,分别占赛道月总访问量的 8.3%和 14.1%。 文字转音频辅助榜单: 2023 年 4 月访问量 Top10 可通过 aiwatch.ai 查看。 2023 年 4 月 2024 年 3 月月访问量增量 Top10 可通过 aiwatch.ai 查看。 音频编辑辅助榜单: 2023 年 4 月:月访问量为 1374 万,Adobe Podcast 以 595 万的访问量位居第一,占赛道月总访问量的 43.3%。Lalal.ai 和 The New Riverside 分别以 204 万和 198 万的访问量位列二、三,分别占赛道月总访问量的 14.8%和 14.4%。 2024 年 3 月:月访问量增长至 2136.8 万,Adobe Podcast 以 467 万的访问量继续保持第一,占赛道月总访问量的 21.9%。The New Riverside 和 Moises 分别以 357 万和 267 万的访问量位列二、三,分别占赛道月总访问量的 16.7%和 12.5%。近一年单月访问量增加了 762.8 万,年增长率为 55.5%。Adobe Podcast 的访问量减少了 128 万,而 The New Riverside 的访问量增长了 159 万。The New Riverside 的增长可能源于其提供的高质量音频编辑功能。 2023 年 4 月 2024 年 3 月月访问量减量 Top5 可通过 aiwatch.ai 查看。 赛道天花板潜力:77 亿$,对标公司:Notion、微软。总体趋势为快速增长,月平均增速 120 万,原生产品占比高。 赛博月刊@25 年 2 月:AI 行业大事记:AI 音频在去年跨越了真假难辨的临界点,成为继图像领域之后,第二条被资本看好的 AI 赛道。
2025-04-14
ai音频
以下是关于 AI 音频的相关信息: MiniMax Audio 发布全新 Speech02 语音模型,提升语音合成质量。 人工智能音频初创公司包括: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :Wondercraft 使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 :演员优先、数字双重声音由最新的 AI 技术驱动,确保高效、真实和符合伦理。 在去年,AI 音频跨越了真假难辨的临界点,成为继图像领域之后,被资本看好的第二条 AI 赛道。
2025-04-14
推荐一下从文本生成播客音频的AI 工具
以下是一些可以从文本生成播客音频的 AI 工具: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :Wondercraft 使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 此外,还有 NotebookLlama:Meta 的播客生成教程,它使用 Llama 模型从 PDF 中提取文本,生成干净的.txt 文件,转化文本为播客转录,创造富有创意的内容,对转录进行戏剧化处理,提高互动性和吸引力,最终将文本转换为播客音频,支持多种 TTS 模型。详细介绍:
2025-04-12
音频总结的AI有哪些
以下是一些关于音频总结的 AI 相关内容: 在智能纪要方面,AI 音乐创作通过输入更高级词汇与 AI 音乐对话能产生更好效果,有相关版块、挑战、分享会和教程,可加入 AI 音乐社区。数字人语音合成介绍了声音克隆技术,常用的是 JPT service。 总结类 AI 工具方面,如 BibiGPT·AI 音视频内容一键总结(https://b.jimmylv.cn/)、15 个值得一试的 YouTube 视频摘要 AI 工具(https://nealschaffer.com/youtubevideosummarizerai/)、summarize.tech:AIpowered video summaries(https://www.summarize.tech/)。 在生成式 AI 季度数据报告中,会议总结赛道可能因远程工作和在线会议普及而需求增加,Otter AI 作为领先产品保持稳定增长。其中 2023 年 4 月到 2024 年 3 月,赛道月访问总量有变化,如 2023 年 4 月约 1314.6 万,2024 年 3 月增至 2146.3 万。同时还有相关的榜单数据,如 23 年 4 月访问量 Top10 等。
2025-04-11
音频去人声
以下是一些关于音频去人声的相关信息: :可以从歌曲中移除人声并分离鼓点、贝斯和其他乐器。 :使用 AI 工具移除音轨,转换为 MIDI,并创建高质量的混音和混搭。 在游戏 PV《追光者》的制作中,利用了一款分离人声的 AI 软件,能够将人声从背景音乐中分离出来,并对一些游戏宣传的音乐进行了人声去除和剪辑处理。 在基于 Sovits 的声音训练及推理中,去混响可通过增加减少和伪影平滑的数值来调整效果,以耳朵为准,预听感受效果合适后渲染应用到整首歌。去杂音方面,对于非主人公的声音,如一次性出现的掌声、笑声、欢呼声,选中对应音轨右键渲染静音即可;重复出现且有一定相似性的,可选中查找类似后右键静音。若杂音和主音柔和在一起无法智能提取,一种思路是直接去掉这段主音,若精益求精,可使用 ripx 软件精修,该软件交互体验优秀,基本不需要教程,左右键点一点音轨图形就知道怎么做,把杂音的音轨删除,主音的音轨可剪切然后导出,所有声音导出成 wav 格式。
2025-04-11
AI音频使用了哪些技术
以下是一些关于 AI 音频所使用技术的介绍: 声音检测方面: :通过更强的听觉感知创造卓越的人类体验。 :先进的声音识别解决方案,能够分类如尖叫、枪声、咳嗽和哭泣等声音。 :下一代声音 AI 平台,能够像人类一样理解任何声音。 :语音控制的家庭自动化系统。 :世界上首个智能家居听觉系统。 :可用于从音频源中提取隐藏数据的 AI 模型。 :无需键盘、按钮或触摸屏,无缝融合物理世界和数据世界。 :为手机、VR/AR 头戴设备、智能手表、扬声器和笔记本电脑提供上下文感知。 :智能音频穿戴设备。 :将声音转化为信息。 :使用先进的深度学习技术进行声音事件检测和上下文识别,为世界上的每一个声音赋予意义。 音乐方面: :免费的 DAW,提供高质量的人声、鼓点、旋律、贝斯分离、全能音频分离、编辑和人声/乐器转 MIDI 功能。 :AI 音频处理。 :在音乐/视频流媒体和虚拟/增强现实中重新定义音频体验。 :为音乐行业提供按需创建音轨的平台。 :为娱乐行业提供音频分离解决方案,释放经典内容的全部潜力。 :在几秒钟内将任何歌曲的人声和音乐分离。 :基于世界排名第一的 AI 技术的高质量音轨分离。 :使用强大的 AI 算法免费将歌曲中的人声与音乐分离。 :使用 HiFi AI 分离歌曲中的人声、鼓点、贝斯和其他乐器。 :为 DJ 歌手提供的在线 AI 人声移除器。 :人声移除和在线卡拉 OK。 :使用多种不同算法(Demucs、MDX、UVR 等)免费分离歌曲。 语音合成(TTS)方面: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :Wondercraft 使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 :演员优先、数字双重声音由最新的 AI 技术驱动,确保高效、真实和符合伦理。
2025-04-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
图片提取文字
以下是关于图片提取文字的相关信息: 大模型招投标文件关键数据提取方案:输入模块设计用于处理各种格式的文档输入,包括 PDF、Word、Excel、网页等,转换成可解析的结构化文本。多种文件格式支持,对于图片,可以借助 OCR 工具进行文本提取,如开放平台工具:。网页可以使用网页爬虫工具抓取网页中的文本和表格数据。 谷歌 Gemini 多模态提示词培训课:多模态技术可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能。还能理解图像或视频中发生的事情,识别物体、场景,甚至情绪。 0 基础手搓 AI 拍立得:实现工作流包括上传输入图片、理解图片信息并提取图片中的文本内容信息、场景提示词优化/图像风格化处理、返回文本/图像结果。零代码版本选择 Coze 平台,主要步骤包括上传图片将本地图片转换为在线 OSS 存储的 URL 以便调用,以及插件封装将图片理解大模型和图片 OCR 封装为工作流插件。
2025-04-15
文章风格提取
以下是关于文章风格提取的相关内容: 该提示词用于抽取不同风格文章的核心要素,抽取到的字段可作为 prompt,结合指定主题进行风格迁移。整体创作思路见文末 PDF。 具体使用方法为:拷贝文章风格提取提示词,输入给任意大模型,随后提供要抽取的文本。 已抽取的一些风格参考包括万维钢风格、史铁生《我与地坛》文风、李娟《我的阿勒泰》文风、许倬云《说中国》文风、鲁迅《狂人日记》文风、王小波《万寿寺》文风、飞书多维表格工作流自动化抽取等。 使用 DeepSeek V3 进行实验时,智能体地址为 https://www.coze.cn/s/VM9pUn9HdmA/ 。初级使用方法是输入公众号文章标题或内容,智能体会自动提取相关信息,默认风格是“炫彩”。高级使用方法需按照要求输入几个要素,如标题、副标题、分享封面、标签、风格等。
2025-04-11
有没有提取小红书内容的AI
以下是为您找到的关于提取小红书内容的 AI 相关信息: 有一款名为“小红书文案专家”的 AI 工具,其功能价值在于:见过多个爆款文案,只需输入一个网页链接或视频链接,就能生成对应的小红书文案,可以辅助创作者生成可一键复制发布的初稿,提供创意和内容,10 倍节约文字内容创作时间。 应用链接:https://www.coze.cn/s/ij5C6LWd/ 一期产品功能: 1. 可以提取任何链接中的标题和内容。 2. 按照小红书平台文案风格,重新整理内容。 3. 加入 emoji 表情包,使文案更有活力。 4. 为文案配图片。 二期计划功能:持续优化升级中,增加全网搜索热点功能,提炼热点新闻或事件关键信息,结合用户想要生成的内容方向,输出文案和配图。
2025-04-09
如何用rpa来实现读取本地excel表格里的内容进行筛选,提取某些数据值后,再自动化填写到飞书的多维表格去。怎么来实现这个功能
要使用 RPA 实现读取本地 Excel 表格内容进行筛选,并将提取的数据值自动化填写到飞书的多维表格,可参考以下步骤: 1. 关于扣子:“”(Coze)是字节跳动在 2024 年上线的新一代一站式 AI Bot 开发平台,也被称为“字节版 GPTs”。它是一个低门槛的 AI 应用开发平台,其核心目标是让没有编程基础的用户也能够轻松参与到 AI 生态的建设中。 2. 登录后,在左侧功能列表的工作空间中,点击右上角“+字段”创建工作流,自行输入名称和描述。 3. 已做好工作流后,逐步拆解每个节点的配置: 开始节点:此节点不需要做任何配置,没有输入以及输出。 读取飞书表格内容节点:点击开始节点后面的“+”,搜索“飞书多维表格”,选择“search_record”功能。添加后,点击该节点的配置,在界面右侧的参数框中,需要填写 app_token、field_names。filter 是对数据的筛选条件,没有筛选需求可直接忽略。其中,app_token 是多维表格的唯一标识符,即表格 URL 中的一段;field_names 则是要读取的具体字段,比如“标题”、“内容”,以作为后续操作的输入。该节点运行后,就能将多维表格中的内容提取出来。
2025-04-09
文章提取器
以下是关于文章提取器的相关内容: Yeadon 提出了利用 Cursor+Coze 工作流打造网页内容提取插件的方法。Cursor 是具有 AI 功能的革新性代码编辑器,Coze 工作流是可视化的组合工具。该插件的功能需求包括对当前网页链接的提取、LLM 对网页内容的总结、LLM 输出三个变量(主角、文章概括、金句提取)、通过图片搜索工具搜主角图片以及进行排版得到图文总结卡片。 小七姐介绍了 MetaPrompt 用于文章风格提取,可抽取不同风格文章的核心要素作为 prompt 进行风格迁移。已抽取的风格包括万维钢、史铁生、李娟、许倬云、鲁迅、王小波等,还提到了飞书多维表格工作流自动化抽取的使用方法,以及相关的测评和彩蛋等内容。
2025-04-07
文字转语音
以下是关于文字转语音的相关内容: DubbingX2.0.3: 界面与国内版相同,使用了沉浸式翻译功能,可能看起来较乱。 第一个选项是文字转语音,与国内版相同,不做重复演示。 重点介绍第二项“创建您的语音克隆”: 上传语音(想克隆的声音原始文件)。 给声音命名,方便以后配音选择。 选择语言。 勾选相关选项,点击转变即可生成。 注意:原音频若有背景音乐,最好在剪影中去除,以使生成的音色模型效果更好、更纯净。 Hedra: 可以直接文字转语音,目前有 6 个语音。 也可以直接上传音频。
2025-04-11
图片文字转文档
图片文字转文档可以通过以下方式实现: coze 插件中的 OCR 插件: 插件名称:OCR 插件分类:实用工具 API 参数:Image2text,图片的 url 地址必填 用途:包括文档数字化、数据录入、图像检索、自动翻译、文字提取、自动化流程、历史文献数字化等。例如将纸质文档转换为可编辑的电子文档,自动识别表单、票据等中的信息,通过识别图像中的文字进行搜索和分类,识别文字后进行翻译,从图像中提取有用的文字信息,集成到其他系统中实现自动化处理,保护和传承文化遗产。 插件的使用技巧:暂未提及。 调用指令:暂未提及。 PailidoAI 拍立得(开源代码): 逻辑:用户上传图片后,大模型根据所选场景生成相关的文字描述或解说文本。 核心:包括图片内容识别,大模型需要准确识别图片中的物体、场景、文字等信息;高质量文本生成,根据图片生成的文字不仅需要准确,还需符合专业领域的要求,保证文字的逻辑性、清晰性与可读性。 场景应用: 产品文档生成(电商/零售):企业可以利用该功能将商品的图片(如电器、服饰、化妆品等)上传到系统后,自动生成商品的详细描述、规格和卖点总结,提高电商平台和零售商的商品上架效率,减少人工编写文案的工作量。 社交媒体内容生成(品牌营销):企业可使用图片转文本功能,帮助生成社交媒体平台的营销文案。通过上传产品展示图片或品牌活动图片,模型可自动生成具有吸引力的宣传文案,直接用于社交媒体发布,提高营销效率。 法律文件自动生成(法律行业):法律行业可以使用图片转文本技术,自动提取合同、证据材料等图片中的文本信息,生成法律文件摘要,辅助律师快速进行案件分析。
2025-04-11
如何去除图片中的文字内容
以下是去除图片中文字内容的方法: 1. 图像预处理: 图像去噪:使用去噪算法(如高斯滤波、中值滤波)去除图像中的噪声。 图像增强:通过增强算法(如直方图均衡化、对比度增强)提升图像的清晰度和对比度。 2. 图像分割:使用图像分割算法将图片中的文字和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测:在分割后的图像中,使用文字检测算法(如基于深度学习的文本检测模型)识别出文字区域。 4. 文字识别:对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR(Optical Character Recognition)技术。 5. 后处理:根据需求进行后处理,如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练(可选):如有足够的数据,可以采用机器学习技术训练模型,通过学习样本中的文字特征来自动去除图片上的文字。 7. 优化算法:对整个处理流程进行优化,提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成:将设计好的算法和模型集成到移动应用程序中,以实现去除图片文字的功能。可以使用移动端开发框架(如 iOS 的 Core ML、Android 的 TensorFlow Lite)来实现模型的部署和调用。 此外,像 Gemini 2.0 Flash 等工具也可以通过自然语言指令来去除图片中的文字,指令如“去掉 XXX”。DALL·E 也能实现去掉图片中的错误文字等操作。
2025-04-11
搭建链接转文字的智能体
搭建链接转文字的智能体可以参考以下步骤: 1. 创建一个智能体,输入人设等信息,并放上相关工作流。 2. 配置完成后进行测试。但注意工作流中【所有视频片段拼接】节点使用的插件 api_token 填的是您的 token,为避免他人调用消耗您的费用,您可以将 api_token 作为工作流最开始的输入,让用户购买后输入使用,然后再发布。 3. 在阿里云百炼平台中,Deepseek R1 模型无需部署可直接使用。使用该模型需要解锁和授权,若没有授权按钮需对阿里云进行实名认证,可通过支付宝扫码或在右上角头像处进行,共学群里有相关指引。 4. 新建智能体应用时,可选择模型并调整参数,如回复字数限制和携带上下文轮数等。 5. 对于模型的连接,可通过模型广场的 API 调用示例获取链接,截断后粘贴到 Chat Box 的设置中,添加自定义提供方,设置模型名称为 Deepseek R1,并获取 API key。还可重置 API key 以方便本地软件连接。
2025-04-10
文字生成故事视频
以下是关于文字生成故事视频的相关信息: Sora 具有文字生成视频的功能,时长可达 60 秒,还能进行图片生成视频、扩展视频等操作。 案例中有把学生写的函数小故事变成动画视频,如深圳福田区梅山中学梁玉老师使用百度文库的 AI 有声画本导入故事生成。 将小说转换成 AI 视频通常包括文本分析、角色与场景生成、视频编辑与合成等步骤。可利用的工具及网址有: Stable Diffusion(SD):一种 AI 图像生成模型,网址: Midjourney(MJ):另一个 AI 图像生成工具,网址: Adobe Firefly:Adobe 的 AI 创意工具,网址: Pika AI:文本生成视频的 AI 工具,网址: Clipfly:一站式 AI 视频生成和剪辑平台,网址: VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能,网址: 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具,网址: 故事 AI 绘图:小说转视频的 AI 工具,网址:
2025-04-09