直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
国内比较好的文生图的模型是哪个
目前国内较好的文生图模型包括: HunyuanDiT:使用双语的 CLIP 模型加多语言的 T5 模型作为文本编码器,但在中文生图方面仍有优化空间。 Kolors:是最近开源的文生图模型中表现出色的一个。从技术报告来看,改进全面,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。在 LLM 大模型的加持下展示出超强的语义理解能力,支持中文输入和图片直出中文,出图效果很不错。
2024-11-01
中国与国外AI模型的差距
目前中国与国外的 AI 模型存在一定差距,但也有自身的优势和进步。 在一些方面,国外模型如 Llama 3.1 在推理、数学、多语言和长上下文任务中能够与 GPT4 相抗衡,首次缩小了开放模型与专有前沿的差距。谷歌 DeepMind 与纽约大学团队的 AlphaGeometry 在奥林匹克级几何问题基准测试中表现出色。GPT 4 Turbo 在 SuperCLUE 测评中的总分遥遥领先,国外模型的平均成绩也相对较高。 然而,中国的 AI 模型也在不断发展。由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得优异成绩,尤其在数学和编程方面表现突出。国内的最强模型能与美国生产的第二强前沿模型竞争,在某些子任务上挑战了 SOTA。国内模型更注重计算效率,以弥补 GPU 访问的限制,并学会更有效地利用资源。例如 DeepSeek 在推理过程中通过多头隐式注意力减少内存需求,并且改进了 MoE 架构。零一万物更加关注数据集的建设。 在专项基准如语言与知识方面,GPT4 Turbo 依然领先,但国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,未来有可能率先形成超越。 总体而言,国内外差距依然存在,但国内大模型在过去一年有了长足的进步,平均水平差距在缩小。
2024-11-01
最新的开源数字人项目
以下是一些最新的开源数字人项目: 1. 项目地址:https://github.com/wanh/awesomedigitalhumanlive2d ,选择了 live2d 作为数字人躯壳,其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单,卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。 2. 开源数字人组合方案: 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。产品:https://synclabs.so/ 。 3. 构建数字人灵魂:可借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架,可利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,便于扩展。
2024-11-01
国家人工智能应用示范项目是什么类型的项目
国家人工智能应用示范项目通常是政府为推动人工智能产业创新发展而设立的项目类型。 以杭州市为例,其相关政策包括: 1. 促进数据开放共享:支持建立资源库和数据共享平台,对年度数据服务交易额列全市前 5 位的给予运营补助,鼓励区、县(市)和园区对购买数据服务的中小企业给予资金支持。 2. 拓展智能应用场景:推动“AI+工业互联网”创新应用,实施“智能+”“+智能”应用示范,每年择优评选不超过 10 个标杆型示范项目,按照不超过项目投资额 30%的标准给予补助,补助金额最高不超过 500 万元。支持企业组建“创新应用实验室”和“未来场景实验室”,对作用发挥好的场景实验室,鼓励区、县(市)和园区给予一定资金支持。 此外,美国也有相关的“National Artificial Intelligence Initiative”,其目的包括为美国当前和未来的劳动力做好准备,以实现人工智能系统在经济和社会各领域的整合。
2024-11-01
AI查重
AI 查重的过程通常包括以下步骤: 1. 信息筛选与确认:系统会对检索器提供的信息进行评估,筛选出最相关和最可信的内容,同时对信息的来源、时效性和相关性进行验证。 2. 消除冗余:识别和去除多个文档或数据源中重复的信息,以防在生成回答时出现重复或相互矛盾的内容。 3. 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等,构建一个结构化的知识框架,使信息在语义上更加连贯。 4. 上下文构建:将筛选和结构化的信息组织成一个连贯的上下文环境,包括对信息进行排序、归类和整合,形成一个统一的叙述或解答框架。 5. 语义融合:在必要时,合并意义相近但表达不同的信息片段,减少语义上的重复并增强信息的表达力。 6. 预备生成阶段:整合好的上下文信息被编码成适合生成器处理的格式,如将文本转化为适合输入到生成模型的向量形式。 能联网检索的 AI 有: 1. ChatGPT Plus 用户现在可以开启 web browsing 功能,实现联网。 2. Perplexity,结合了 ChatGPT 式的问答和普通搜索引擎的功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型。 3. Bing Copilot,作为一个 AI 助手,旨在简化您的在线查询和浏览活动。 4. 如 You.com 和 Neeva AI 等搜索引擎,提供了基于人工智能的定制搜索体验,并保持用户数据的私密性。 此外,还有一些相关的工具和平台: 1. Afforai 是一个为研究人员设计的 AI 驱动的研究助手和聊天机器人,提供一系列工具来简化研究流程,支持多种文档格式,提供三种不同的搜索模式。 2. Recall 能够自动总结用户在线遇到的各种内容,并将其保存到用户的知识库中,自动组织和分类内容,通过知识图谱技术帮助用户发现信息之间的联系,还提供间隔重复学习功能。
2024-11-01
有几十个角色台词的语音文件,用什么方式克隆他的声音质量更好?
很抱歉,您提供的内容中并未包含关于克隆几十个角色台词语音文件以获得更好声音质量的具体方法和相关信息。但一般来说,要提高语音克隆的质量,可以考虑以下几个方面: 1. 选择高质量的原始语音文件,确保其清晰、无噪音。 2. 利用先进的语音克隆技术和工具,例如一些专业的语音处理软件。 3. 对语音特征进行精细的分析和提取,以准确捕捉原始声音的特点。 4. 进行适当的参数调整和优化,以适应不同的角色和场景需求。
2024-11-01
推荐给视频配音的AI工具
以下为您推荐一些给视频配音的 AI 工具: 1. Wavel Studio: 支持 30 多种语言的配音,音质自然流畅。 自动去除背景噪音和杂音。 提供添加字幕和文本叠加层的工具。 界面友好,提供多种自定义选项。 2. Elai.io: 支持 65 多种语言的配音,音色和语调真实。 自动将唇形与语音同步。 生成字幕,提高视频的可访问性。 支持多位配音者,适合复杂对话场景。 3. Rask AI: 支持 130 多种语言的配音,包括稀有和濒危语言。 采用先进语音合成技术,音质高保真。 提供语音参数自定义和音效添加工具。 与多种视频编辑平台和工作流程整合。 4. Notta: 提供快速实惠的多语言配音解决方案。 保留原声说话风格和细微差别。 提供调整语音速度和音调的工具。 支持批量处理,高效完成多视频配音。 5. Dubverse: 支持 60 多种语言的配音,音质接近真人。 提供文本转语音和语音克隆功能。 提供语音参数自定义和情感添加工具。 与多种视频平台和社交媒体渠道整合。 6. Speechify: 支持 50 多种语言的配音,音质自然流畅。 提供实时配音功能,适用于直播和演讲。 将语音转录为文本,方便后期字幕制作和编辑。 与多种生产力和学习工具整合。 7. Vidnoz AI: 支持 23 多种语言的配音,音质高保真。 支持文本转语音和语音克隆功能。 提供语音参数自定义和背景音乐添加工具。 提供面向个人和企业的经济实惠的定价方案。 在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。希望以上信息对您有所帮助。
2024-11-01
stablediffusion在线webui如何开发
开发 Stable Diffusion 在线 Web UI 可以按照以下步骤进行: 1. 安装必要的软件环境: 安装 Git 用于克隆源代码。 安装 Python 3.10.6 版本,确保勾选“Add Python 3.10 to PATH”选项。 安装 Miniconda 或 Anaconda 创建 Python 虚拟环境。 2. 克隆 Stable Diffusion Web UI 源代码: 打开命令行工具,输入命令 git clone https://github.com/AUTOMATIC1111/stablediffusionwebui.git ,将源代码克隆到本地目录。 3. 运行安装脚本: 进入 stablediffusionwebui 目录,运行 webuiuser.bat 或 webui.sh 脚本,它会自动安装依赖项并配置环境。等待安装完成,命令行会显示 Web UI 的访问地址。 4. 访问 Web UI 界面: 复制命令行显示的本地 Web 地址,在浏览器中打开,即可进入 Stable Diffusion Web UI 的图形化界面。 5. 学习 Web UI 的基本操作: 了解 Web UI 的各种设置选项,如模型、采样器、采样步数等。尝试生成图像,观察不同参数对结果的影响。学习使用提示词(prompt)来控制生成效果。 6. 探索 Web UI 的扩展功能: 了解 Web UI 支持的各种插件和扩展,如 Lora、Hypernetwork 等。学习如何导入自定义模型、VAE、embedding 等文件。掌握图像管理、任务管理等技巧,提高工作效率。 在完成了依赖库和 repositories 插件的安装后,还需要进行以下配置: 将 Stable Diffusion 模型放到/stablediffusionwebui/models/Stablediffusion/路径下。然后到/stablediffusionwebui/路径下,运行 launch.py 即可。运行完成后,将命令行中出现的输入到本地网页中,即可打开 Stable Diffusion WebUI 可视化界面。进入界面后,在红色框中选择 SD 模型,在黄色框中输入 Prompt 和负向提示词,在绿色框中设置生成的图像分辨率(推荐设置成 768x768),然后点击 Generate 按钮进行 AI 绘画。生成的图像会展示在界面右下角,并保存到/stablediffusionwebui/outputs/txt2imgimages/路径下。 如果选用 Stable Diffusion 作为 AIGC 后台,需要注意: DallE 缺乏室内设计能力,MidJourney 出图效果好但无法基于现实环境重绘,Stable Diffusion 出图成功率较低,但可调用 controlnet 的 MLSD 插件捕捉现实环境线条特征做二次设计。安装 Stable Diffusion WEB UI 后,修改 webuiuser.bat 文件加上 listen 和 API 参数,让 Stable Diffusion 处于网络服务状态。代码如下: @echo off set PYTHON= set GIT= set VENV_DIR= set COMMANDLINE_ARGS=xformers nohalfvae listen api git pull call webui.bat 让 Stable Diffusion 具有 AI 室内设计能力的步骤: 1. 下载室内设计模型(checkpoint 类型),放到 stable diffusion 目录/models/stablediffusion 下面。 2. 安装 controlnet 插件,使用 MLSD 插件,实现空间学习。 通过 API 方式让前端连接到 Stable Diffusion 后台的具体代码在前端开发详细展开,API 参考文档可选读。
2024-11-01
小白学习AI首先要做的是
对于小白学习 AI,首先要做以下几点: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,可以根据自己的兴趣选择特定的模块进行深入学习,同时掌握提示词的技巧。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出自己的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品:与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,还有一个案例,一位纯小白在学习代码和开发应用时,通过与 Claude 和人类导师的协作,从简单的小任务入手,逐步掌握相关知识。但过程中也会遇到挫折,如问题描述不清导致得到错误指引、AI 给出的方案复杂、配置错误等。这表明小白需要通过能直接搞定的小项目来先学明白背后的原理,同时最好有人类导师把任务拆解到足够小,针对性地设计学习路径,并密切关注随时提供帮助。
2024-11-01
AI学习那一块变现快
以下是一些在 AI 学习中可能较快变现的领域: 1. 电商领域中的婴儿四维彩超 AI 预测:这是一个适合普通人作为副业的项目。操作流程简单,客户提供四维彩超图原图后,在 Midjourney 里进行垫图和特定描述词,不超过 10 分钟就能出图。通过在小红书、抖音等公域平台发布相关笔记吸引客户咨询,将客户引到私域接单变现。但要注意平台引流需隐蔽,以免被检测限流或封号。 2. 鉴于人工智能依赖的神经网络基础,专家 AI 可能通过元学习更快地获得知识,并有可能成为下一代专家的教师,从而在教育领域实现价值变现。 需要注意的是,AI 领域的变现速度可能受到多种因素影响,包括市场需求、技术水平、竞争情况等。
2024-11-01