「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
开源的数字人工具
以下是一些开源的数字人工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 此外,还有一些相关的开源算法代码仓库: 1. ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition(语音识别的接口集合):https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/ 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。上周 HeyGen 工具创始人的演示视频刷屏,效果很好。LKS 也有相关的数字人介绍视频:https://www.bilibili.com/video/BV1vm4y1x7nm/?share_source=copy_web&vd_source=6c09aa7f53b69992e1cd572bbd2dbf94 。斯坦福 AI 小镇上周正式开源,相关论文链接:https://arxiv.org/abs/2304.03442 。
2024-11-19
小白学习A|绘画
以下是为小白学习 AI 绘画提供的指导: 一、AI 绘画助手 有一个专业且贴心的 AI 绘画学习导师,即《AI 绘画助手》。它的网址是:https://www.coze.cn/store/bot/7387381204275904521?panel=1&bid=6d1aji2c86g1m 。 无论您是新手小白还是进阶爱好者,它都能提供优质实用的指导。在原理讲解方面,能将复杂的神经网络、生成对抗网络以及卷积神经网络等知识用通俗易懂的语言解释清楚。对于市面上流行的 AI 绘画工具,如 DALLE、MidJourney、Stable Diffusion 等,不仅了如指掌,还能介绍使用步骤和独特之处,帮助您找到适合自己的工具。它还擅长风格迁移技术、生成对抗网络在图像生成和编辑中的应用,以及获取高分辨率精美图像的方法,并会传授关键要点和操作技巧。此外,它拥有丰富的实战案例经验,能引领您从零基础起步创作作品,遇到难题时为您答疑解惑并规划学习路径。 二、最低成本的开始 1. 扣子 + ByteArtist 网址:https://www.coze.cn/home 优点:不需要翻墙,无收费,可以直接生成 注册:手机号、抖音号或飞书号 操作步骤:需要在 coze 的 bot 里面添加绘图插件 时间:5 分钟 三、先锋的选择 1. Midjourney 网址:https://www.midjourney.com/explore?tab=random 优点:图片和描述相关性更大,风格更加显著 限制:需要翻墙,需要 Gmail 注册,不免费,在 discord 上代理使用 时间:30 60 分钟 价格:8 美元一个月/ 200 张图 四、关于提示词 当您希望画出更符合特定需求的图像,如小猫微笑、特定动作、拜年等,需要学习 Midjourney 专属提示词。这和聊天工具的逻辑类似,可以从提示词和图片生成原理两方面入手来提高生成效果。
2024-11-19
小白学习A|从那里开始
对于小白学习 AI ,可以从以下几个方面开始: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库中有很多实践后的作品、文章分享。 5. 体验 AI 产品: 与现有的 AI 产品如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人互动,了解其工作原理和交互方式。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。 另外,根据电脑的硬件情况和自身财力选择合适的开始方式: 本地部署:如果电脑是 M 芯片的 Mac 电脑(Intel 芯片出图速度非常慢,因此不建议)或者 2060Ti 及以上显卡的 Windows 电脑,可以选择本地部署。强烈建议在配有 N 卡的 Windows 电脑上进行。 在线平台:对于电脑不符合要求的小伙伴可以直接使用在线工具,在线工具分为在线出图和云电脑两种,前者功能可能会受限、后者需要自己手动部署,大家根据实际情况选择即可。 不建议一上来就配主机,因为大概率会变成游戏机或者吃灰(土豪请随意)。玩几个月后还对 AI 有兴趣的话再考虑配个主机。主机硬盘要大,显卡预算之内买最好,其他的随意。 课程方面: 先验经验:需要熟练使用文生图、图生图;需要有一定的逻辑思考能力以及推理能力;适合炼丹新人、小白。 课程安排:课程大约 70 80%是理论和方法论的内容,大部分练习会在课外跟大家沟通、练习。只有少部分必要内容会在课上演示。 必学、必看内容是基础课,主要是为了解决环境问题和软件安装不上的问题;建炉是针对不同炼丹方式提供了不同的炼丹工具的安装教程;正式的内容部分分为了数据集预处理、模型训练以及模型调试及优化三个部分。
2024-11-19
模糊图片如何变清晰
要将模糊图片变清晰,整个流程主要分为以下三部分: 1. 图像输入:添加 Load Image 节点加载图像,不建议上传大分辨率的图片,因为图片分辨率越大,处理时间越长。 2. 图像高清修复: 使用 Checkpoint 大模型 Iceclear/StableSR 进行高清修复,并放大 2 倍。此模型是一种利用预先训练的文本到图像扩散模型中的先验知识来实现盲超分辨率的新颖方法,需搭配 Stable SR Upscaler 模型以最大程度修复图像,推理图片每个噪点来还原图像。 提示词部分应包含想要达到的目的内容,如正向:(masterpiece),(best quality),(realistic),(very clear);反向:3d,cartoon,anime,sketches,(worst quality),(low quality)(杰作),(最高品质),(逼真的),(非常清晰);3D,卡通,动漫,素描,(最差质量),(低质量)。全程采取两次高清修复。 3. 图像高清放大: 针对第一次放大修复后的图像进行二次修复,用 realisticVision 底膜最合适,此模型在重绘扩图放大等领域效果良好。 使用提示词反推 node 对图像进行画面提示词提取,搭配 tile ControlNet 提升画面细节感,然后用合适的高清放大模型对图像进行二次放大。 此外,图像高清修复还需注意以下几点: 修复必须要使用 StabilityAI 官方的 Stable Diffusion V2.1 512 EMA 模型,放入 stablediffusionwebui/models/StableDiffusion/文件夹中。 StableSR 模块(约 400M 大小)放入 stablediffusionwebui/extensions/sdwebuistablesr/models/文件夹中。 VQVAE(约 750MB 大小)放在 stablediffusionwebui/models/VAE 中。 对于老照片,可将其放入后期处理中,使用 GFPGAN 算法将人脸变清晰。还可将图片发送到图生图中,打开 stableSR 脚本放大,并切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可不写以免干扰原图。
2024-11-19
目前最好的公文写作软件是哪个
目前在公文写作方面,以下是一些相关的软件和工具: 1. Kimi 推出的“公文笔杆子”,是公文材料写作的必备工具,能有效提高写作效率。 2. 秘塔写作猫(https://xiezuocat.com/):是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,支持全文改写、一键修改、实时纠错并给出修改建议,还能智能分析文章属性并打分。 3. 笔灵 AI 写作(https://ibiling.cn/):是智能写作助手,在心得体会、公文写作等方面表现出色,支持一键改写/续写/扩写,能锤炼打磨文字。 4. 腾讯 Effidit 写作(https://effidit.qq.com/):由腾讯 AI Lab 开发的智能创作助手,能提升写作者的写作效率和创作体验。 更多 AI 写作类工具可以查看:https://www.waytoagi.com/sites/category/2 。但需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-19
你认为目前最好用的大模型有哪些?
目前最好用的大模型包括: 1. OpenAI 的 GPT4:是最先进和广泛使用的大型语言模型之一,在多种任务上表现卓越,如文本生成、理解、翻译及各种专业和创意写作任务,能通过大量数据学习理解和生成人类语言,处理复杂问题和理解上下文能力出色。 2. Anthropic 公司的 Claude 3。 3. 谷歌的 Gemini。 4. 百度的文心一言。 5. 阿里巴巴的通义大模型。 大型模型主要分为两类: 1. 大型语言模型:专注于处理和生成文本信息。 2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息。 大型多模态模型与大型语言模型的不同点: 1. 处理的信息类型不同:大型语言模型专注于文本,大型多模态模型能处理多种类型信息。 2. 应用场景不同:大型语言模型主要用于自然语言处理任务,大型多模态模型应用领域更广泛。 3. 数据需求不同:大型语言模型依赖大量文本数据训练,大型多模态模型需要多种类型数据训练。 此外,如果想了解国内的大模型效果,可以参考第三方基准评测报告: 。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-19
设计研究的AI工具
以下是一些可以用于设计研究的 AI 工具: 在软件架构设计中,绘制逻辑视图、功能视图和部署视图的工具: Lucidchart:流行的在线绘图工具,支持多种图表创建,用户可通过拖放界面轻松创建架构图。 Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用,支持逻辑视图创建。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 draw.io(diagrams.net):免费在线图表软件,支持多种类型图表创建。 PlantUML:文本到 UML 转换工具,可通过描述文本自动生成相关视图。 Gliffy:基于云的绘图工具,提供创建架构图功能。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。 在建筑设计中审核规划平面图的工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载建筑大模型。 Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,能引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,实现数据汇总与管理。 需要注意的是,每个工具都有其特定的应用场景和功能,建议根据具体需求选择合适的工具。同时,部分内容由 AI 大模型生成,请仔细甄别。
2024-11-19
适合logo设计的工具
以下是一些适合 logo 设计的工具: 1. Looka:是一个在线 Logo 设计平台,使用 AI 理解用户的品牌信息和设计偏好,生成多个设计方案供选择和定制。 2. Tailor Brands:AI 驱动的品牌创建工具,通过用户回答问题生成 Logo 选项。 3. Designhill:其 Logo 制作器使用 AI 技术创建个性化设计,用户可选择元素和风格。 4. LogoMakr:提供简单易用的设计工具,用户能拖放设计,利用 AI 建议的元素和颜色方案。 5. Canva:广受欢迎的在线设计工具,提供 Logo 设计模板和元素,有 AI 辅助设计建议。 6. LogoAI by Tailor Brands:Tailor Brands 推出的 AI Logo 设计工具,根据输入快速生成方案。 7. 标小智:中文 AI Logo 设计工具,利用人工智能技术帮助创建个性化 Logo。 使用这些工具时,用户通常可根据品牌理念和视觉偏好,通过简单交互获得一系列设计方案,并进一步定制和优化,直到满意为止。另外,您还可以访问网站的 AI 生成 Logo 工具版块获取更多好用的工具: 。 此外,还有关于生成 logo 的相关教程和案例拆解,如超强 LOGO 生成器的使用方法:设计一个 logo 生成工具,允许用户上传多张 logo 图片作为参考,若无法处理多张图片,需将四张合成一张处理。通过提示询问用户是否使用这些图片创建新 logo 设计,可自定义提示词风格,设定每张图片参考权重,利用 GPT4 Vision 识图能力提取关键特征生成新 logo 设计,若用户不满意则重新生成,提示用户下一步操作方法,满意则发送让用户转 LOGO 矢量图操作,默认语言为中文。 如果您想生成一个乐高 logo 的 STL 文件,步骤如下: 1. 使用矢量图形编辑软件(如 Adobe Illustrator 或 Inkscape)创建或获取矢量格式的乐高 logo,确保符合标准。 2. 导入 3D 建模软件(如 Blender、Fusion 360 或 Tinkercad),将矢量图形转换为 3D 模型。 3. 在 3D 建模软件中创建 3D 模型,调整尺寸和厚度,确保可打印。 4. 导出为 STL 文件格式。以下是在 Blender 中使用 Python 脚本创建简单 3D 文本作为乐高 logo 并导出为 STL 文件的步骤: 1. 打开 Blender。 2. 打开脚本编辑器。 3. 输入脚本。 4. 运行脚本。 5. 检查 STL 文件。您可根据需要调整脚本参数以获得满意的 3D 模型。
2024-11-19
最好用的AI工具有哪些
以下是一些好用的 AI 工具: AI 新闻写作工具: Copy.ai:功能强大,提供丰富的新闻写作模板和功能,可快速生成新闻标题、摘要、正文等内容,提高写作效率。 Writesonic:专注写作,提供新闻稿件生成、标题生成、摘要提取等功能,智能算法能生成高质量新闻内容,适合新闻写作和编辑人员。 Jasper AI:主打博客和营销文案,也可用于生成新闻类内容,写作质量较高,支持多种语言。 访问量较大的 AI 工具: ChatGPT:在 2022 年 9 月至 2023 年 8 月期间拥有 146 亿次访问量,在美国使用率最高,其次是印度和巴西,大多数受众通过移动设备访问,性别分布偏向男性用户。 Character AI QuillBot Midjourney Hugging Face Google Bard NovelAI CapCut JanitorAI Civitai 能够帮助建筑设计师审核规划平面图的 AI 工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载建筑大模型,软件 UI 和设计成果颜值在线。 Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索,能根据输入需求自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,提供全新设计模式,可引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,能将建筑全寿命周期内的信息集成,实现数据汇总与管理。 需要注意的是,每个工具都有其特定的应用场景和功能,建议您根据自己的具体需求来选择合适的工具。同时,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-19
克隆音色
以下是一些关于克隆音色的相关信息: 产品推荐: PlayHT:https://play.ht/studio/ ,包含预设音色,可免费克隆一个音色,若想生成多个,删除上一个音色即可做新的。 Elevenlabs:https://elevenlabs.io/app ,包含预设音色,新用户 1 美元开通一个月会员,可使用克隆音色。 魔搭社区:https://www.modelscope.cn/home ,是一个模型开源社区及创新平台,由阿里巴巴通义实验室联合 CCF 开源发展委员会发起,包含各种声音模型,有开发经验的朋友可使用。 Dubbingx:https://dubbingx.com/ ,免费克隆音色,有桌面版,Mac、Window 均可用。 魔音工坊:https://www.moyin.com/ 对口型相关: Runway:静态图片+音频文件,可生成对口型视频;动态视频+音频文件,可生成对口型视频,但需要消耗 20 点。 Pika:静态图片+音频文件,可生成对口型视频。 其他: 剪映:不能使用预录制的音频,只能现场朗读随机提供的文字材料收集音色信息,1 积分=2 个字,消耗积分生成配音,会员每个月赠送 1200 积分。 GPTSoVITS:开源 AI 克隆音色项目,部署难度较高,但是效果很好,完整的教程和测评请查看原作者主页:https://space.bilibili.com/5760446 。 ElevenLabs 推出全自动化的 AI 配音或视频翻译工具,上传视频或粘贴视频链接,能全自动在几十秒到几分钟内将视频翻译成 29 种语言,还能克隆原视频里面的声音来配音。群友测试豆包的音色模仿,读大概 20 个字的句子,5 秒就可生成非常像的音色,之后可用自己的声音读生成的文字内容,声音音色模仿非常像。
2024-11-19