以下是一些关于文生音乐的 App 相关信息:
作者:吵爷[heading1]前言[content]音乐创作相对来说是一个比较主观、感性的过程,具有非常多的不确定性。但同时音乐也具备非常强的规律性,因此有时非常复杂的音乐,听起来并不杂乱,而是给人非常直观的韵律感。后来和一些专业做音乐的朋友聊过一阵,目前龙头的文生音乐软件Suno,Uido等,对于比较简单的广告BGM,游戏配乐等使用场景,已经有非常大的使用价值,但在音乐创作上还差的很远。首先是提示词的控制:Suno除了歌词部分外,音乐风格提示词只有120个字符,能够描述和理解的关键词也非常有限,其次就是Suno的创作丰富度还是很有限,写出来的旋律相对很单调,乍一听可能还可以,但很难一直想听下去。然而行业在肉眼可见的速度增长,未来也许我们能够更加可控的进行音乐创作。在技术还没有准备好之前,如果大家喜欢这一块,可以花一些时间来稍微补充乐理相关的一些知识,配合前面的音乐流派风格prompt食用,对自己生成的音乐有更好的理解。Colab上写了一个增强音质的脚本,Suno输出的音乐可以丢进去,输出44.1khz采样率和320kpbs码率的文件,不如现有的音频处理工具。。。调参实在太难了https://colab.research.google.com/drive/1y0kyNoVNDbs1VNKR6kxAr2wsV-QWVu0-#scrollTo=AFAmnxAkkWk9
作者:KEEN原文:[AI配乐工具](https://i0x94xzpjmh.feishu.cn/docx/S5iydQBXhoMt3rxZ2qqc8MP6nsh)[heading2]Audiobox[content]https://audiobox.metademolab.com/Audiobox是Meta的新音频生成基础研究模型。它可以结合使用语音输入和自然语言文本提示来生成语音和声音效果,从而可以轻松地为各种用例创建自定义音频。[heading2]Stable Audio[content]https://www.stableaudio.com/使用下面的GPTs生成对应的提示词https://chat.openai.com/g/g-jAr0hpLsL-stableaudiogpt[heading2]图像生成配乐模型(MAGNet,AudioLDM,audiogen)[content]https://huggingface.co/spaces/fffiloni/Image2SFX-comparison[heading2]audiogen[content]文生音乐,文生拟音,在discord上使用,但效果不稳定https://discord.gg/wUuF5Uh2pR
音乐生成使用了大名鼎鼎的文生音乐模型[Suno](https://app.suno.ai/),教程可以参考Keen和陈浚嘉的这两篇教程:[Suno操作指北V1](https://waytoagi.feishu.cn/wiki/PhTwwHp1QiNdoFknip1cLwysntd)[Suno操作指北V2](https://waytoagi.feishu.cn/wiki/D1DOwPS5ei5EkckZHUvcVjpEnff)这里只分享我个人的一些心得。Suno和大语言模型一样都具有很强的随机性,并且输入(prompt/tag)质量往往决定了输出(生成音乐)质量,想要避免无谓的抽卡,让生成结果无限地靠近自己的想法,就需要使用一些提示词技巧。在自定义模式(Custom Mode)下,有两个主要的输入窗口:音乐风格(Style of Music)与歌词(Lyrics),我们分别来讲音乐风格(Style of Music)这里需要你填写一些tag来描述整首音乐的风格和感觉,多个tag之间用“,”进行分隔。根据suno的官方文档和我的测试,可以识别的tag有:音乐类型/流派:如ROCK、FUNK、JAZZ、EDM、K-POP等人声/乐器:如clear female vocal、electric guitar、drums、cello等情绪/氛围:如pure weepery、epic、Christmas Vibes、action packed等节奏:staccato、4/4 time、build up等场景:如movie soundtrack、jingles、wedding band混响:recording studio、concert hall、underwater等其他和声/音效等:如3-part harmony、cartoon sound effects、droning