Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

快速记录语音并转换文字用哪个AI

Answer

以下是一些可用于快速记录语音并转换文字的 AI 工具:

  1. 海螺 AI 声音克隆:不仅能进行声音克隆,还能嵌入完整的 AI 录视频工作流。具体步骤包括录制初始视频、音频提取(可用剪映或格式工厂将 mp4 转为 mp3)、语音转文字(可上传至通义听悟或飞书妙记)。但可能会遇到语音识别不准的问题,此时可使用 Gemini 2.0 Pro 等工具进行优化校正,校正时需提供足够上下文,如视频初稿、最终文章、工作流操作文档、转录文本等。
  2. GET 笔记:语音转文字功能适合快速构思和记录灵感,能自动润色,去掉口癖和冗余部分。
  3. 通义听悟:适合处理较长的会议录音等文字内容。它能通过 TTS 技术将音视频中的语音转换成文字,还能识别不同发言人。使用时可登录官网 https://tingwu.aliyun.com/,根据实际情况选择实时记录或上传音视频,并选择录音背景信息,如单人、双人还是多人,以及语言种类等。完成转录后会显示 AI 总结的关键词和全文摘要。
Content generated by AI large model, please carefully verify (powered by aily)

References

2025 年必用十大 AI 工具+ AI 工作流

除了单纯的声音克隆,海螺AI这个工具还能嵌入一个完整的AI录视频工作流中,解决录制时嗓子哑、环境差等问题,同时确保音画同步、内容准确。这个工作流特别适合教程视频或口播内容创作者,即使状态不佳也能高效完成任务。具体步骤如下:录制初始视频:即使嗓子沙哑或有口癖,也先边操作边录制讲解,记录完整内容。音频提取:将mp4视频转为mp3音频文件(可用剪映或格式工厂)。语音转文字:把音频上传至通义听悟(或其他工具如飞书妙记),生成文字稿。这时可能会遇到语音识别不准的问题,比如“夙愿”被认成“素月”,“文风”变成“文峰”。全靠人工校对太费劲,这里可以用AI优化。推荐使用Gemini 2.0 Pro(支持200万token上下文),因为它能处理长文本且逻辑能力强。其他工具如KimiChat或豆包可能因token限制或性能不足而效果不佳。校正时需提供足够上下文:视频初稿(约1k字)最终文章(约2k字)工作流操作文档(几千字)转录文本(约9000字)将这些内容输入Gemini 2.0 Pro,并使用以下提示词:

2025 年必用十大 AI 工具+ AI 工作流

演讲准备通常是个费时费力的过程:从构思主题、整理大纲、撰写讲稿到制作PPT,每一步都需要精心打磨。但有了AI工具的加持,这个过程可以大大简化。我的“AI演讲准备工作流”是:GET笔记→Claude→Gamma→通义听悟→Claude。下面,我会一步步拆解这个流程。Step 1:GET笔记-快速构思和记录灵感演讲的第一步是捕捉灵感。GET笔记的语音转文字功能非常适合在灵感迸发时快速记录。你可以边走边说,或者随手记录思路,GET笔记会将语音转为文字,并自动润色,去掉口癖和冗余部分,让你的初步想法更清晰。例如,我准备一个关于“AI工作流”的演讲时,用GET笔记快速“说”出了主题和几个关键点,AI润色后生成了一个简洁的文本草稿。Step 2:Claude-优化内容和生成讲稿将GET笔记生成的文本输入Claude或者Gemini,它强大的写作能力能帮你把草稿打磨成逻辑清晰、表达流畅的讲稿。你可以要求它补充细节、调整结构,甚至加入案例或金句。Step 3:Gamma-一键生成PPT讲稿完成后,制作PPT是下一步。Gamma是个神器——只需将讲稿粘贴进去,它就能自动生成PPT初稿,包括大纲、内容和AI配图。我试过把一份2000字的讲稿丢给Gamma,它在1分钟内生成了15页专业级PPT,排版和图片都很出色,省时又高效。Step 4:通义听悟-模拟演讲和分析

2025 年必用十大 AI 工具+ AI 工作流

前面的Get笔记是挺好用的,但是一次免费版只能转10分钟的文字,如果是会议录音这种比较长的文字内容,用什么工具呢?这里推荐使用阿里出品的通义听悟,官网:https://tingwu.aliyun.com/。它的核心功能就是,把音视频通过TTS技术把语音转换成文字,同时,还能识别不同的发言人,在回听会议录音的时候,就可以快速定位到不同的发言人说的话,非常方便。如果你用过飞书妙记的话,那不用说你就知道说什么东西了。但相比于飞书妙记,通义听悟的不仅时长更长、免费使用,还加入了AI功能。具体使用方法:1、打开通义听悟:https://tingwu.aliyun.com/home,然后点击右上角的登录。登录可以选择手机登录,也可以选择使用支付宝扫码。然后首页这里,有两个选择,一个是实时记录,你可以理解成同声传译,你边说电脑边录制,然后实时转换成文字内容,然后你点击完成之后,完整的内容就直接出来了第二个是上传音视频,就比如我今天是直接录音的,录音完之后,保存到手机里生成了一个mp3文件,此时就可以在这里上传我的mp3文件来转录然后选择哪一个,都要根据实际的情况来选一下录音时的背景信息,是单人solo还是两人对话还是多人讨论?是中文还是英文还是日语粤语等等?完成转录之后,会显示AI总结好的关键词、AI总结的全文摘要,下面的图片是我跟朋友连麦直播完事之后,导出视频文件再上传到通义听悟处理完的结果:

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
AI术语解释
以下是一些常见的 AI 术语解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。属于技术范畴。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。属于技术范畴。 TPU(张量处理单元):谷歌开发的一种微处理器,专门用于加速机器学习工作负载。属于技术范畴。 Training Data(训练数据):用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning(迁移学习):机器学习中的一种方法,其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data(验证集):机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。用于调整模型的超参数(即架构,而不是权重)。属于技术范畴。 Knowledge Distillation(数据蒸馏):数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG(检索增强生成):检索增强生成。属于技术范畴。 Forward Propagation(前向传播):在神经网络中,输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。属于技术范畴。 Foundation Model(基础模型):在广泛数据上训练的大型 AI 模型,旨在适应特定任务。属于技术范畴。 GAN(通用对抗网络):一种机器学习模型,用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI(生成式 AI):AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。属于通识范畴。 GPU(图形处理单元):一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。
2025-04-18
coze 语音克隆
以下是关于语音克隆的相关信息: 有一款适合小白用户的开源数字人工具,具有以下特点和功能: 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G + 3G 语音模型包,启动模型即可。 GitHub 链接: 官网链接: 另外,CosyVoice 声音克隆仅需几秒音频样本,无需额外训练数据,可控制情绪情感、语速、音高。 详细内容:https://xiaohu.ai/p/10954 项目地址:https://funaudiollm.github.io 在线演示:https://modelscope.cn/studios/iic/CosyVoice300M
2025-04-12
语音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用步骤: 特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 提供预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用步骤: 1. 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 2. GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备:点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ,新建笔记本,运行脚本启动 GPTSo VITS,整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行;运行过程包括克隆项目代码库、进入项目目录、安装 Python 依赖包、安装系统依赖、下载 NLTK 资源、启动 Web UI,运行成功后出现 public URL。 实践样本: AIyoyo 普通话 满江红 AIyoyo 粤语版 满江红
2025-04-12
文字转语音
以下是关于文字转语音的相关内容: DubbingX2.0.3: 界面与国内版相同,使用了沉浸式翻译功能,可能看起来较乱。 第一个选项是文字转语音,与国内版相同,不做重复演示。 重点介绍第二项“创建您的语音克隆”: 上传语音(想克隆的声音原始文件)。 给声音命名,方便以后配音选择。 选择语言。 勾选相关选项,点击转变即可生成。 注意:原音频若有背景音乐,最好在剪影中去除,以使生成的音色模型效果更好、更纯净。 Hedra: 可以直接文字转语音,目前有 6 个语音。 也可以直接上传音频。
2025-04-11
语音转文字
以下是关于语音转文字的相关信息: 推荐使用 OpenAI 的 wishper 进行语音转文字,相关链接:https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API 。 语音转文本(Speech to text): 介绍:语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。 快速入门: 转录:转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿,默认响应类型为包含原始文本的 JSON,可添加更多带有相关选项的form 行设置其他参数。 翻译:翻译 API 输入任何支持语言的音频文件,必要时转录成英语,目前仅支持英语翻译。 更长输入:默认 Whisper API 仅支持小于 25MB 的文件,若音频文件更长,需分成小于 25MB 的块或使用压缩后格式,可使用 PyDub 开源 Python 软件包拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。 提示:可使用提示提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。
2025-04-08
实时翻译视频语音
以下是为您整理的相关信息: 实时翻译视频语音的工具: StreamSpeech:这是一个实时语言翻译模型,能够实现流媒体语音输入的实时翻译,输出目标语音和文本,具有同步翻译、低延迟的特点,还能展示实时语音识别结果。 给视频配音效的 AI 工具: 支持 50 多种语言的配音,音质自然流畅,提供实时配音功能,适用于直播和演讲,能将语音转录为文本,方便后期字幕制作和编辑。 Vidnoz AI:支持 23 多种语言的配音,音质高保真,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,提供面向个人和企业的经济实惠的定价方案。 在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。
2025-04-07
文本转语音
以下是关于文本转语音的相关信息: 在线 TTS 工具推荐: Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为多种平台的应用使用,用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 语音合成技术原理: 传统的语音合成技术一般会经过以下三个步骤: 1. 文本与韵律分析:先将文本分词,标明每个字的发音以及重音、停顿等韵律信息,然后提取文本的特征,生成特征向量。 2. 声学处理:通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后一次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。 OpenAI 新一代音频模型: OpenAI 于 2025 年 3 月 20 日推出了全新的音频模型,包括改进的语音转文本和文本转语音功能。 语音转文本模型在单词错误率和语言识别准确性方面相较于原有的 Whisper 模型有显著提升,能更好地捕捉语音细节,减少误识别,在多语言评估基准上表现优异。 文本转语音模型具备更高的可定制性,支持个性化语音风格,目前支持人工预设的语音样式,并通过监控确保语音与合成预设一致。 测试地址:https://www.openai.fm/ 直播回放:https://www.youtube.com/watch?v=lXb0L16ISAc 说明文档:https://openai.com/index/introducingournextgenerationaudiomodels/ 内容由 AI 大模型生成,请仔细甄别。
2025-04-01
自然语言转换为sql
以下是关于自然语言转换为 SQL 的相关信息: DuckDBNSQL7B 模型能够将自然语言转换成 SQL 代码,使非专业用户能轻松与数据库交互,它基于大量真实和合成的 DuckDB SQL 查询训练。相关链接:https://github.com/NumbersStationAI/DuckDBNSQL 、https://x.com/xiaohuggg/status/1751081213459415164?s=20 Claude 官方提示词中有将日常语言变成 SQL 查询语句的相关内容。 以下是一些推荐的 text2sql 相关的 AI 工具及其链接: Text2SQL:将英文转换为 SQL 查询。链接:https://toolske.com/text2sql/?ref=theresanaiforthat ai2sql:高效且无错误的 SQL 构建器。链接:https://www.ai2sql.io/ EverSQL:从 SQL 查询翻译英文文本。链接:https://www.eversql.com/sqltotext/ SupaSQL:从 NLP 生成 SQL 查询。链接:https://supasql.com/ SQLgenius:使用自然语言的 SQL 查询生成器。链接:https://sqlgenius.app/ SQL Chat:与数据库进行自然语言聊天的 SQL 客户端。链接:https://www.sqlchat.ai/ SQL Ease:从自然语言输入生成 SQL 查询。链接:https://sqlease.buildnship.in/ Talktotables:翻译和查询数据库。链接:https://talktotables.com/ 此外,还有几个知名的 text2sql 项目,如 SQLNet(使用深度学习方法解决 text2sql 任务的项目)、Seq2SQL(将自然语言转换为 SQL 查询的序列到序列模型)、Spider(一个大规模的 text2sql 数据集及其相关的挑战)
2025-03-31
自动转换信息为表格
以下是关于自动转换信息为表格的相关内容: Andrej Karpathy 亲授:大语言模型入门 在讨论 LLM 的未来部分提到,使用 ChatGPT 收集有关规模人工智能及其创始轮次的信息,并整理成表格。ChatGPT 不是直接作为语言模型回答问题,而是使用工具,如浏览器进行搜索,将信息组织成表格,包括 A、B、C、D 和 E 系列,有日期、筹集的金额以及该系列中的隐含估值,并提供引用链接,同时会标注无法找到的信息。 50 个 ChatGPT 指令,提升工作效率 其中包括将文本转成 CSV 表格的相关提示:“从下面粘贴的列表中,创建一个包含”
2025-03-15
有哪些视频风格转换工具
以下是一些常见的视频风格转换工具: 1. DomoAI 和艺映:上传 10 20 秒的视频即可完成视频的风格化转绘,但风格较为固定。 2. Ebsynth:可实现更可控、可操作的视频风格化转绘。 3. FRESCO:文字提示视频风格转换,无需额外训练即可编辑和转换视频风格,能保留视频动作和情节的自然流畅,并自适应屏幕尺寸。 4. HeyGen:发布 5.0 版本,整合了包括全新用户界面设计、引入视频编辑工作室和实时数字人聊天功能、视频翻译等功能。
2025-03-10
有没有视频转换拍摄脚本的AI工具
以下是一些可以将视频转换为拍摄脚本的 AI 工具: 1. ChatGPT + 剪映:ChatGPT 可生成视频小说脚本,剪映能根据脚本自动分析出视频所需场景、角色、镜头等要素,并生成对应素材和文本框架,实现从文字到画面的快速转化。 2. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入(如图像、文本、音频)转化为视频。 3. Pictory:AI 视频生成器,允许用户提供文本描述来生成相应视频内容,无需视频编辑或设计经验。 4. VEED.IO:提供 AI 图像生成器和 AI 脚本生成器,帮助用户从图像制作视频,并规划视频内容。 5. Runway:AI 视频创作工具,能将文本转化为风格化的视频内容,适用于多种场景。 6. 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务,可根据文本脚本生成视频。 如果您想用 AI 把小说做成视频,大致的制作流程如下: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-03-08
我想让cursor帮我编程一个能在Android studio编译的Android应用,它的主要功能是接受esp32通过websocket协议发送过来的opus数据,保存opus并把数据转换成wav,再使用sherpa-onnx语音识别成文字。我该使用什么提示词让cursor帮我写出这个Android应用?
很抱歉,目前没有适用于让 Cursor 生成您所需 Android 应用的特定提示词。编写这样一个复杂的 Android 应用需要对 Android 开发、网络通信、音频处理和语音识别等多个领域有深入的了解和专业知识。您可能需要逐步向 Cursor 描述应用的架构、各个模块的功能和实现逻辑,例如先描述如何建立与 ESP32 的 WebSocket 连接,如何接收和处理 Opus 数据,如何进行数据转换以及如何调用 Sherpaonnx 进行语音识别等。但需要注意的是,仅仅依靠提示词让 Cursor 生成完整可用的复杂应用可能具有一定的局限性,建议您在具备相关基础知识的前提下,结合 Cursor 的辅助来逐步完成开发。
2025-03-06
我想让cursor帮我编程一个能在Android studio编译的Android应用,它的主要功能是接受esp32通过websocket协议发送过来的opus数据,保存opus并把数据转换成wav,再使用sherpa-onnx语音识别成文字。我该使用什么提示词让cursor帮我写出这个Android应用?
很抱歉,目前没有关于使用 Cursor 生成您所需的这种特定 Android 应用的提示词的相关内容。一般来说,您可以向 Cursor 提供以下关键信息作为提示词的参考: 1. 明确应用的功能需求,如“编写一个在 Android Studio 中编译的 Android 应用,用于接收 ESP32 通过 WebSocket 协议发送的 Opus 数据,保存 Opus 并转换为 WAV 格式,然后使用 Sherpaonnx 进行语音识别成文字。” 2. 描述应用的技术架构和关键技术点,例如“应用需基于 Android 平台,使用合适的网络库处理 WebSocket 连接,采用有效的数据存储方式保存 Opus 数据,利用特定的音频转换库将 Opus 转换为 WAV,以及集成 Sherpaonnx 语音识别库实现文字转换。” 3. 提及开发环境和工具要求,比如“在 Android Studio 开发环境中,遵循 Android 应用开发规范和最佳实践。” 但需要注意的是,Cursor 生成的代码可能并不完全满足您的需求,还需要您进行进一步的修改和完善。
2025-03-06
excel表格导出的用户的对话记录,来进行自定义标签并打标,有哪些好用的现成方案或者工具
目前在 Excel 表格导出的用户对话记录进行自定义标签并打标方面,以下是一些常见且好用的工具和方案: 1. Microsoft Excel 本身:可以利用其数据筛选、排序和函数功能来辅助标签和打标。 2. Google Sheets:具有类似 Excel 的功能,且在线协作方便。 3. R 语言:通过编程实现复杂的数据分析和标签处理。 4. Python 及相关库,如 Pandas:能够灵活处理数据和进行标签操作。 但具体选择哪种方案或工具,取决于您的具体需求、技术水平和使用习惯。
2025-04-07
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
会议记录ai
以下是关于会议记录 AI 的相关信息: 会议记录工具: 以下是一些可以用于会议总结的网站和工具: 免费的会议语音转文字工具: 有免费的会议语音转文字工具,不过大部分有使用的时间限制,超过一定的免费时间后就需要付费。以下是几款推荐的工具: 飞书妙记:https://www.feishu.cn/product/minutes ,飞书的办公套件之一 通义听悟:https://tingwu.aliyun.com/home ,阿里推出的 AI 会议转录工具 讯飞听见:https://www.iflyrec.com/ ,讯飞旗下智慧办公服务平台 Otter AI:https://otter.ai/ ,转录采访和会议纪要 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 会议记录相关内容: 2024 年 11 月 13 日的会议记录包括: 如果能和教育结合是最好的。 AI 的能力边界展示。 办公提效。 可以提前收集教育领域的需求,让小伙伴针对性地做一些产品和服务(云谷老师协助收集需求和案例,社群小伙伴帮助实现),包括办公提效的具体场景、家校沟通、个性化教育、心理疏导、备课体系、作业批改、出题建议、对老师出题后的建议和评估、辅助出题、建立孩子的成长体系记录、孩子的成长记录智能体、孩子成长的游戏(如寻宝游戏)、朗读(模拟老师来泛读,学生背诵,AI 来评判)、文生图和文生视频(备课时的针对性)、学科本身的一些教育辅助、分析学生行为并给出策略(基于教育心理学等)、教师模拟培训、公开课备课辅助。 需求可能需要描述更清晰的最终交付物形态和背后的思考等。 企业方面可能包括具身智能、3D 眼镜、AI 绘本、AI 图书、学习机、飞书的多维表格、蚂蚁的智能体、Coze 的智能体、Zeabur 等云平台、0 编码平台、大模型(通义、智谱、kimi、deepseek 等)、编程辅助、文生图(可灵、即梦等)、推荐咖啡和奶茶等 AI 调配(需要相应资质)。
2025-03-18
有没有适合记录会议纪要的AI
以下是一些适合记录会议纪要的 AI 工具和方法: 1. 案例一:【普通人秒变效率王】AI 工作流秒记会议纪要 视频讲解:https://m.okjike.com/originalPosts/65fa9d1112ed2fda68e6215e?s=eyJ1IjoiNTlhZDcyZDUwYjAyYTEwMDEyMjc3YmZmIiwiZCI6MX0%3D 工作流概述: 文本导出:使用飞书妙记将会议对话导出为 txt 文件 纪要生成:启动 Kimichat 输入会议纪要 prompt 提示词并上传 txt 文件 内容完善:与 Kimichat 对话并补充会议中未记录或需强调的信息 纪要微调:审阅 Kimichat 生成的会议纪要草稿进行必要微调 成品输出:确认会议纪要内容无误后,输出最终版文档 和 Kimichat 的完整对话(点击可直接复用并接着聊):https://kimi.moonshot.cn/share/cnsk08phmfr6s04umlrg 2. 总结类 AI 工具: 3. 免费的会议语音转文字工具: 飞书妙记:https://www.feishu.cn/product/minutes ,飞书的办公套件之一 通义听悟:https://tingwu.aliyun.com/home ,阿里推出的 AI 会议转录工具 讯飞听见:https://www.iflyrec.com/ ,讯飞旗下智慧办公服务平台 Otter AI:https://otter.ai/ ,转录采访和会议纪要 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-18
微信聊天记录整理助手
以下是关于微信群聊总结 AI 助手(JS and Electron ver)的详细介绍: 脚本版本运行: 会弹出二维码,使用微信扫码登录,登录成功后程序持续抓取群聊记录,保存在本地文件中,位置在 data/日期文件夹/群名.txt,不会上传到第三方。 手动运行总结程序,在每天结束时对某个群的内容进行总结,命令为:npm run summarize./data/20230823/xxx.txt 总结语音生成的配置。 项目介绍: 这是基于微信机器人的微信群聊总结助手,能自动收集群聊记录并用 AI 总结发送到指定群聊。 是较简单能实现完整功能的项目,用 JS 简单封装。 每次执行 summarize 命令会生成三个总结文件。 提示:使用本项目登录微信可能存在封号风险,请慎重使用并遵守相关平台规则。 下载与支持: 本项目由免费白嫖 GPT 的智囊 AI技术支持。 自己跑不起来但需要群聊总结的同学,可加机器人微信号:aoao_eth,把机器人拉进群里。 新版本:桌面应用: 可使用桌面版,一键监控、总结、发送,也可用脚本版手动运行监控和总结。 下载后直接打开配置 app key 即可运行监控和总结,一键总结,一键发送到群内。 如需要 windows 版本,可自己构建或者直接代码运行,代码在 app 文件夹中,欢迎构建成功的同学提供 windows 安装包。 截图展示的功能: 每日群聊监控和数据统计(界面实时更新) 一键总结,一键查看总结结果,一键发送到群聊 聊天记录实时查看,直接发送内容到群聊 随时更新的配置,可配置截取的文本长度和结尾词等 机器人状态监控,账号切换 正常运行界面,点击对话可看到实时对话和记录,同时可直接输入内容对话 微信登录界面
2025-03-12
正在搭建客户CRM系统,对于客户拜访跟进记录表格,希望平衡销售人员的录入便捷性和信息完整性,如何通过多维表格接入的AI功能来简化信息录入,比如通过语音录音,直接解析内容。推荐我具体方法,包括怎么解析语音,输出的关键字段,以及提示词
以下是一种通过多维表格接入的 AI 功能来简化客户拜访跟进记录信息录入的方法: 1. 定义任务目标:让 AI 成为您的私人 CRM,即客户管理系统。 2. 编写指令: 定义角色:希望 AI 作为一名顶级的客户服务与销售总监,负责记住客户的爱好与信息。 提供背景信息:简单描述自己的身份,例如负责什么产品的销售。 明确任务目标和输出要求:在每次拜访客户后,把重要信息发送给 AI,要求 AI 每次接到新的客户消息后,只用回复一句“收到,知道了。” 3. 信息录入方式:可以通过语音录音的方式将拜访客户的信息传达给 AI。 4. 语音解析:利用 AI 的语音识别和自然语言处理能力,对语音内容进行解析。 5. 输出的关键字段:可能包括客户姓名、联系方式、拜访时间、拜访内容要点、客户需求、客户反馈等。 6. 提示词:例如“请整理本次拜访客户的关键信息”“提取重要内容并生成表格”等。 您可以参考以上方法,根据实际需求进行调整和优化。
2025-03-07