Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

怎么投喂语料库给ai

Answer

以下是关于投喂语料库给 AI 的一些方法和步骤:

在音乐学习方面:

  1. 步骤 3:把 Midi 导出到 MP3 虚拟演奏文件。可以直接导总谱,也可以分轨导出(适用于不同乐器组合)。由于制谱软件有很重的 midi 味,有时需要调整乐器音色。320kbit 码率是各大音乐平台的门槛,而向 Suno 导出的是 192k 的,后期如果想输出到 QQ 音乐之类,需要转个码。导出以后就可以喂给 AI 了。修改音色这一步不是必须,也有很多染色的软件可以用,比如用 Neutron4 从 Youtube 上面下载一些自己喜欢的乐器音色(比如雅马哈大钢琴),然后用宿主软件打开插件,导入这段音频,就可以实现渲染。
  2. 步骤 4:丢给 AI 做二次创作。比较喜欢丢完整的小节给 AI,这样节奏的识别性更好,当然也可以在中间掐断,AI 的识别能力还是不错的。接下来就是细化去 roll 后面的部分,大家可以自由发挥。

在 OpenAI 方面: 如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,将有关电影的高质量信息(例如演员、导演等)添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索,以便在运行时将相关信息动态添加到模型输入中。文本嵌入是一个向量,可以衡量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串靠得更近。这一事实以及快速向量搜索算法的存在意味着嵌入可用于实现高效的知识检索。特别是,一个文本语料库可以被分割成块,每个块都可以被嵌入和存储。然后,给定的查询可以被嵌入,可以进行向量搜索,以找到与查询最相关的语料库的嵌入文本块(即,在嵌入空间中最接近的)。可以在OpenAI Cookbook中找到示例实现。有关如何使用知识检索来最小化模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。

Content generated by AI large model, please carefully verify (powered by aily)

References

[音乐学习] AI音乐-自定义前奏的一种工作流

可以直接导总谱,也可以分轨导出(适用于不同乐器组合,由于制谱软件有很重的midi味,有时需要调整乐器音色)320kbit码率是各大音乐平台的门槛,而向Suno导出的是192k的,后期如果想输出到QQ音乐之类,需要转个码(虽然单纯转码对音质没有直接提升~)导出以后就可以喂给AI了修改音色这一步不是必须,也有很多染色的软件可以用,比如我现在用的是Neutron4,从Youtube上面下载一些自己喜欢的乐器音色(比如雅马哈大钢琴),然后用宿主软件打开插件,导入这段音频,就可以实现渲染了(刚刚Studio One过期了,这里就先不放图了)[heading1]步骤4:丢给AI做二次创作:[content]我比较喜欢丢完整的小节给AI,这样节奏的识别性更好,当然也可以在中间掐断,AI的识别能力还是不错的:接下来就是细化去roll后面的部分,这个就步细讲了,大家可以自由发挥最后丢个完整版(前奏有点长没剪,AI生成的部分在53秒之后):输出响度调大了,大家可以把音量降下来点~[Udio完整版.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/V3yxbOQtXolGWPxG4Jnc5MWdn9d?allow_redirect=1)

吵爷:AI音乐-自定义前奏的一种工作流

可以直接导总谱,也可以分轨导出(适用于不同乐器组合,由于制谱软件有很重的midi味,有时需要调整乐器音色)320kbit码率是各大音乐平台的门槛,而向Suno导出的是192k的,后期如果想输出到QQ音乐之类,需要转个码(虽然单纯转码对音质没有直接提升~)导出以后就可以喂给AI了修改音色这一步不是必须,也有很多染色的软件可以用,比如我现在用的是Neutron4,从Youtube上面下载一些自己喜欢的乐器音色(比如雅马哈大钢琴),然后用宿主软件打开插件,导入这段音频,就可以实现渲染了(刚刚Studio One过期了,这里就先不放图了)[heading1]步骤4:丢给AI做二次创作:[content]我比较喜欢丢完整的小节给AI,这样节奏的识别性更好,当然也可以在中间掐断,AI的识别能力还是不错的:接下来就是细化去roll后面的部分,这个就步细讲了,大家可以自由发挥最后丢个完整版(前奏有点长没剪,AI生成的部分在53秒之后):输出响度调大了,大家可以把音量降下来点~[Udio完整版.mp3](https://bytedance.feishu.cn/space/api/box/stream/download/all/V3yxbOQtXolGWPxG4Jnc5MWdn9d?allow_redirect=1)

目录:OpenAI 官方指南

如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,将有关电影的高质量信息(例如演员、导演等)添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索,以便在运行时将相关信息动态添加到模型输入中。文本嵌入是一个向量,可以衡量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串靠得更近。这一事实以及快速向量搜索算法的存在意味着嵌入可用于实现高效的知识检索。特别是,一个文本语料库可以被分割成块,每个块都可以被嵌入和存储。然后,给定的查询可以被嵌入,可以进行向量搜索,以找到与查询最相关的语料库的嵌入文本块(即,在嵌入空间中最接近的)。可以在[OpenAI Cookbook](https://github.com/openai/openai-cookbook/blob/main/examples/vector_databases/Using_vector_databases_for_embeddings_search.ipynb)中找到示例实现。[有关如何使用知识检索来最小化模型编造](https://platform.openai.com/docs/guides/gpt-best-practices/tactic-instruct-the-model-to-use-retrieved-knowledge-to-answer-queries)错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。

Others are asking
语料库训练相关文档
以下是为您提供的语料库训练相关文档: 中文数据集 |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| ||||||||||| |6||2020 年|CLUE||CLUENER2020 数据集,是在清华大学开源的文本分类数据集 THUCTC 基础上,选出部分数据进行细粒度命名实体标注,原数据来源于 Sina News RSS。数据包含 10 个标签类别,训练集共有 10748 条语料,验证集共有 1343 条语料|细粒度;CULE|命名实体识别|\\|中文| |7||英文| |8||||EMNLP2015|命名实体识别||| |9||2005 年|MSR/PKU|||bakeoff2005|命名实体识别||| TTS 超全教程 音库制作和文本前端 音库制作 音频录制 音频的录制对合成语音的表现较为重要,较差的语音甚至会导致端到端声学模型无法正常收敛。用于训练的录音至少要保证录音环境和设备始终保持一致,无混响、背景噪音;原始录音不可截幅;如果希望合成出来的语音干净,则要删除含口水音、呼吸音、杂音、模糊等,但对于目前的端到端合成模型,有时会学习到在合适的位置合成呼吸音、口水音,反而会增加语音自然度。录音尽可能不要事先处理,语速的调节尚可,但调节音效等有时会造成奇怪的问题,甚至导致声学模型无法收敛。音频的录制可以参考录音公司的标准,购买专业麦克风,并保持录音环境安静即可。在音库录制过程中,可尽早提前尝试声学模型,比如音库录制 2 个小时语音后,就可尝试训练基线语音合成系统,以防止录音不符合最终的需求。 语料整理 检查文本和录制的语音是否一一对应,录制的音频本身一句话是否能量渐弱,参与训练的语音前后静音段要保持一致,能量要进行规范化。可使用预训练的语音活动检测(Voice Activity Detection,VAD)工具,或者直接根据语音起止的电平值确定前后静音段。可以使用一些开源的工具,比如统一所有语音的整体能量,这将有助于声学模型的收敛。当然,在声学模型模型训练时,首先就要对所有语料计算均值方差,进行统一的规范化,但是这里最好实现统一能量水平,防止一句话前后能量不一致。能量规整的示例代码如下。
2025-01-02
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
有哪些好用的法律ai
以下是一些好用的法律 AI 应用场景和示例: 1. 诉讼策略制定: AI 将基于商标法等相关条款和案例法,为商标侵权案件提供诉讼策略,包括对原告商标权利的分析、被告侵权行为的评估、关键证据搜集建议、法律抗辩点及和解或调解策略。 其他例子: 为专利侵权案件制定诉讼策略,分析专利有效性、被告侵权行为及抗辩理由,提出证明侵权和计算损害赔偿的建议。 针对劳动合同纠纷案件,分析员工权益和雇主责任,提出诉讼策略,包括主张权益、证据收集重点及证明雇主违约行为。 在知识产权许可诉讼中,分析许可协议条款和双方权利义务,提出诉讼策略,包括证明许可协议违反、计算损失赔偿及可能的合同解除条件。 模拟法庭,如模拟商业合同违约的法庭审理,分析双方论点、证据和法律依据,预测判决结果,给出优化法庭陈述和证据呈现的建议。 2. 法律意见书撰写: AI 根据案件背景、证据材料和法律法规,自动撰写初步法律意见书,包含案件事实梳理、法律分析和结论。 其他例子: 针对商业秘密泄露案件,分析法律责任和赔偿范围,撰写法律意见书,提供应对策略。 为计划上市的公司提供关于公司治理结构的法律意见书,确保符合相关法规要求。 就消费者权益保护案件提供法律意见,分析商家赔偿责任和消费者维权途径,制定应对措施。 起草股权转让协议,包括转让方和受让方信息、股权转让份额、价格、支付方式和时间表、先决条件、双方权利义务、保密、违约责任和争议解决条款等。 3. 指令风格和技巧: 可指定 AI 模仿某位资深律师的逻辑严谨和言简意赅的风格,使其提供的信息更符合专业律师的沟通和表达习惯。 运用 PEMSSC 方法,如选择个性化的风格、给出参考或逻辑结构、从多个角度思考、进行总结概括、使用分隔符号区分等。 个性化风格:选择幽默且富有洞察力的风格,融入创新视角。 参考和逻辑结构:在提供法律建议时,采用 SWOT 分析法或 4P 原则等逻辑结构。 多角度思考:在分析商事诉讼时,从市场趋势、竞争对手行为、战略规划、财务状况和市场前景等角度思考诉讼策略。
2025-04-18
有没有能根据描述,生成对应的word模板的ai
目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如: 在法律领域,您可以提供【案情描述】,按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件,模拟不同辩护策略下的量刑结果,对比并推荐最佳辩护策略,或者为商业合同纠纷案件设计诉讼策略等。 在 AI 视频生成方面,有结构化的提示词模板,包括镜头语言(景别、运动、节奏等)、主体强化(动态描述、反常组合等)、细节层次(近景、中景、远景等)、背景氛围(超现实天气、空间异常等),以及增强电影感的技巧(加入时间变化、强调物理规则、设计视觉焦点转移等)。 一泽 Eze 提出的样例驱动的渐进式引导法,可利用 AI 高效设计提示词生成预期内容。先评估样例,与 AI 对话让其理解需求,提炼初始模板,通过多轮反馈直至达到预期,再用例测试看 AI 是否真正理解。 但需要注意的是,不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化,以获得更符合期望的 word 模板。
2025-04-18
可以增强图片清晰的的ai
以下是一些可以增强图片清晰度的 AI 工具: 1. Magnific:https://magnific.ai/ 2. ClipDrop:https://clipdrop.co/imageupscaler 3. Image Upscaler:https://imageupscaler.com/ 4. Krea:https://www.krea.ai/ 更多工具可以查看网站的图像放大工具库:https://www.waytoagi.com/category/17 此外,PMRF 也是一种全新的图像修复算法,它具有以下特点: 擅长处理去噪、超分辨率、着色、盲图像恢复等任务,生成自然逼真的图像。 不仅提高图片清晰度,还确保图片看起来像真实世界中的图像。 能够应对复杂图像退化问题,修复细节丰富的面部图像或多重损坏的图片,效果优质。 详细介绍: 在线体验: 项目地址: 这些 AI 画质增强工具都具有不同的特点和功能,可以根据您的具体需求选择合适的工具进行使用。
2025-04-18