直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
关于部署的问题
以下是关于部署的相关信息: 对于 JavaScript 的 AI 堆栈,在向量数据库方面,LLM 需要由向量数据库来处理稳定的长期记忆和上下文窗口问题,如 Pinecone 是较成熟和受欢迎的选择,同时也支持 Supabase 的 。部署方面,使用 Fly.io 是个不错的选择,因其多区域、易管理且提供通用计算环境,是 JavaScript 本地托管环境和传统云之间的折衷,且代码也支持其他托管环境,Fly.io 很快还将提供 GPU 用于托管自己的模型。 部署和训练自己的 AI 开源模型的主要步骤包括: 1. 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,根据自身资源、安全和性能需求选择。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,如 BERT、GPT 等开源模型,或自行训练基础模型。 4. 针对目标任务进行模型微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并进行在线调试和性能优化。 6. 注意安全性和隐私保护,重视大模型涉及的大量数据和隐私信息的安全性和合规性。 在 Linux 上部署 ChatTTS 很简单,比 GPTSoVITS 更容易,前提是有一张 4G 以上显存的 GPU 显卡。简单步骤如下: 1. 下载代码仓库。 2. 安装依赖(有两个依赖不在 requirements.txt 里)。 3. 启动 webui 的 demo 程序,用浏览器登陆服务器的 ip:8080 就能试玩,demo 提供了 3 个参数:server_name(服务器的 ip 地址,默认 0.0.0.0)、servic_port(即将开启的端口号)、local_path(模型存储的本地路径)。 4. 第一次启动生成语音时,需看控制台输出,会下载一些模型文件,可能因网络问题失败,但第一次加载成功后后续会顺利。 5. 可基于此基础拓展,如集成到 agent 的工具中,结合 chatgpt 做更拟人化的实时沟通。 6. webui 上可设置的参数:text(需要转换成语音的文字内容)、Refine text(选择是否自动对输入的文本进行优化处理)、Audio Seed(语音种子,用于选择声音类型,默认值为 2)、Text Seed(文本种子,用于 refine 文本的停顿,实测会影响音色、音调)、额外提示词(可写在 input Text 里,用于添加笑声、停顿等效果)。
2024-12-27
什么是AGI
AGI 即强人工智能或通用人工智能,是指具有人类水平的智能和理解能力的 AI 系统。它有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。目前还只是一个理论概念,还没有任何 AI 系统能达到这种通用智能水平。 AGI 的五个发展等级分别为: 1. 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者:具备人类推理水平,能够解决复杂问题,如 ChatGPT,能根据上下文和文件提供详细分析和意见。 3. 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可预测蛋白质结构,加速科学研究和新药发现。 5. 组织:最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 更多信息请见(AGI)。OpenAI 自 2015 年成立以来,一直将 AGI 作为其战略目标之一,随着 ChatGPT、多模态大模型和 AI Agent 等技术的发展,我们似乎越来越接近实现这一目标。
2024-12-27
小孩学英文的AI
以下是一些适合小孩学英文的 AI 工具: 1. LingoDeer(https://www.lingodeer.com/):通过游戏和互动活动教孩子英语,提供各种课程,包括字母、数字、语法和词汇等,还有家长仪表板可跟踪孩子进度并设置学习目标。 2. Busuu(https://www.busuu.com/):提供英语及其他多种语言课程,采用多种教学方法,包括音频、视频课程和互动练习,具有社区功能可与其他孩子练习口语。 3. Memrise(https://www.memrise.com/):使用抽认卡和游戏教英语,涵盖基本词汇到会话技巧,具有社交功能可与朋友和家人一起学习。 4. Rosetta Stone(https://www.rosettastone.com/):采用沉浸式方法教英语,让孩子在自然环境中学习,具有语音识别功能帮助练习发音。 5. Duolingo(https://www.duolingo.com/):免费的语言学习应用,提供多种语言课程,通过游戏化方法使学习有趣。 在为 4 岁儿童选择时,要考虑孩子的年龄、兴趣和学习风格,以及应用程序的功能和成本。此外,像 Heeyo 这种由 AI 小恐龙带领冒险的游戏化产品也相当有趣,全程全英文语音交互,适合低龄段学习场景。
2024-12-27
小孩教育AI
以下是关于小孩教育 AI 的相关内容: 1. 有创业公司推出针对 36 岁孩子成长陪伴的 AI 毛绒玩具。毛绒玩具能与孩子多轮对话、用 IP 角色的音色交流,孩子会把玩具当作有生命、会说话的伙伴。AI 毛绒玩具定价几百元,客单价低于家庭机器人,市场教育成本低,且在毛绒玩具市场快速增长的背景下具有发展潜力。 2. 对于小孩是否可以接触 AI,答案是肯定的。但也存在担忧,如 AI 可能让人类变懒、甚至变废,影响学生的批判性思维等能力。不过,AI 可能带来如一对一辅导更加个性化等颠覆性改变。 3. 为 4 岁儿童选择练习英语口语的 AI 工具时,要考虑应用程序的年龄适配性、趣味性、有效性、价格等因素。可以尝试不同的工具,根据孩子的成长和发展适时切换。
2024-12-27
如何登呢使用有言aigc
以下是关于 AIGC 相关的使用信息: AIGC 论文检测网站: Turnitin:是广泛使用的学术剽窃检测工具,增加了检测 AI 生成内容的功能。使用方法为上传论文,系统自动分析并提供详细报告,标示出可能由 AI 生成的部分。 Copyscape:主要用于检测网络剽窃行为,虽非专门的 AIGC 检测工具,但可发现可能被 AI 生成的重复内容。使用时输入文本或上传文档,系统扫描网络查找相似或重复内容。 Grammarly:提供语法检查和剽窃检测功能,剽窃检测部分可识别可能由 AI 生成的非原创内容。将文本粘贴到编辑器中,选择剽窃检测功能,系统提供分析报告。 Unicheck:基于云的剽窃检测工具,适用于教育机构和学术研究,可检测 AI 生成内容的迹象。上传文档或输入文本,系统分析并生成报告,显示潜在的剽窃和 AI 生成内容。 :专门设计用于检测 AI 生成内容的工具,使用先进算法分析文本,识别是否由 GPT3 或其他 AI 模型生成。上传文档或输入文本,系统提供详细报告。 ChatGPT 注册: 注册谷歌账号: 1. 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 2. 选择个人用途。 3. 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 4. 填写年龄性别(最好大于 18 岁)。 5. 填写账号名称。 6. 设置密码(大小写字母+数字)。 7. 手机短信验证,国内号码即可,填写验证码。 8. 填写辅助邮箱(可用国内邮箱)。 9. 确认账户信息,点击下一步。 10. 拉到最底部,点我同意。 11. 点击确认开启个性化设置后即可完成注册。 注册 ChatGPT 账号: 1. 打开 ChatGPT 的官网:https://chat.openai.com/,点击注册按钮。 2. 点击用 Google 账号登录。 3. 输入刚注册的谷歌邮箱,点击下一步。 4. 输入密码,点击下一步。 5. 确认用谷歌账号作为 ChatGPT 账号登录。 6. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(确保年龄在 18 岁以上),点击 Agr。 7. 完成注册。 悠船操作指南: 1. 进入官网:https://www.youchuanai.com/,点击下载对应版本。 2. 点击注册,在注册方式选择「激活码」(目前邀请码已达上限),填写其他信息完成后即可使用。
2024-12-27
I am new to Ai, I want to learn about, however I don’t know how to start to create a tailor AI that can suit for my background and can help me to increase my work productivity. Can you show me how I can learn ai from beginning step by step?
以下是为您提供的从零基础开始学习 AI 并创建适合您背景、能提高工作效率的定制 AI 的逐步指南: 1. 了解 AI 基本概念 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅 在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习 AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。 一定要掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 6. 技术应用 如果您对生成式人工智能还不甚了解,当务之急是迅速掌握其基本概念和潜在影响。您无需成为技术专家,深入每个技术细节,重点应放在理解这项技术如何革新我们的工作方式,如何重塑行业格局。这种宏观的理解将帮助您在变革中找准定位,抓住机遇。 深入了解市场上现有的人工智能产品和工具,并积极尝试将它们应用到实际工作中。这种实践性的学习不仅能帮助您快速适应新技术,还能让您洞察到 AI 在实际工作中的优势和局限性。通过亲身体验,您将更好地理解如何将 AI 工具与您的专业知识和创造力相结合,从而在工作中创造更大的价值。 7. 精准控制生成式人工智能 当您深入了解了人工智能的背景并实际运用了这些产品后,您将迈入一个新的阶段:学习如何精准控制生成式人工智能,使之成为您工作的得力助手,显著提升您的工作效率和产出质量。在这个阶段,您将重点学习提示词技术。这项技能将帮助您编写更加清晰、精确的指令,从而更好地引导 AI 工具产生您所需要的结果。掌握了这项技能,您就能够更加灵活地运用 AI 工具,使其真正成为您工作中的得力助手。 8. 探索构建智能体(AI Agents) 您可以探索如何构建智能体(AI Agents)。这些智能体有潜力彻底革新您的工作方式。试想一下,拥有多个虚拟伙伴和助手与您共同工作的场景。每个智能体都可以被赋予特定的角色和任务,它们可以协同工作,大大提高您的工作效率和创新能力。 在实际应用中,为您提供几条准则: 如果您不确定如何为您的 AI 网站设计徽标,可以使用 AI 徽标生成器。网上有许多不同的 AI 徽标生成器可供选择,例如 Logomaster.ai、Free Logo Design、Logo AI、Looka logo maker(原名 Logojoy)、Brandmark、DesignEvo、Tailor Brands、Designhill 等。 为您的 AI 网站新徽标起草设计概要,包括项目名称、客户、日期、目的、目标受众和品牌属性等方面。 希望以上内容对您有所帮助,祝您在学习 AI 的道路上取得成功!
2024-12-27
照片生成动画
以下是关于照片生成动画的相关内容: 使用 Runway 生成动画: 图片准备好后,可拖到 Runway 里生成 4 秒视频。Runway 是收费的,您也可以在闲鱼或淘宝找免费的或买号。进入 Runway 官网首页,点击“start with image”,然后直接将图片拖进来。动画幅度尽量用 3,5 有时会乱跑。啥都不用改,直接点击生成即可。注意:不需要等进度条转完,可以直接继续往里放图片,可以同步执行。直接点删除,然后重新上传下面的图即可(最多可以放几个您可以自行测试)。 使用 Camera Motion 生成动画: 1. 上传图片:点击“AddImage”上传图片。 2. 输入提示词:在“Prompt”中输入提示词。 3. 设置运镜方向:选择您想要的运镜方向,输入运镜值(https://waytoagi.feishu.cn/docx/Ci9yd5xu2o46rXxNofdcnqH9nXbdoxcniTMBNtWHj6MSpXvB2DTyUh)。 4. 设置运动幅度:运动幅度和画面主体运动幅度有关,与运镜大小无关,可以设置成您想要的任意值。 5. 其它:选择好种子(seed),是否高清(HD Quality),是否去除水印(Remove Watermark)。 6. 生成视频:点击“create”,生成视频。 相关资讯: 1. Wonder Dynamics 推出自动 3D 动画生成技术 Wonder Animation:只需导入视频,无需手动设置即可自动生成 3D 场景。可与现有动画和 3D 渲染软件无缝整合,支持多种格式。显著加速动画和 3D 内容创作流程,适用于影视和动画项目制作。详情: 2. HeyGen 推出基于照片生成数字人的新功能:上传照片或输入文字提示即可生成个性化的 AI 数字人形象。可选择性别、年龄、种族,定制肢体动作、服装、姿势和背景。支持脚本编辑,提供多种声音和情感表达,一分钟即可生成视频。详情: 3. DID 推出 Express 和 Premium+两款新数字人工具:Express:通过一分钟视频训练模型,支持同步头部动作。Premium+:需要更长视频训练,可支持手部和躯干动作。DID 表示互动视频广告的点击率和转化率分别提升了 30%和 35%。详情:
2024-12-27
flux lora训练
以下是关于 Flux 的 Lora 模型训练的相关内容: 模型准备: 需下载以下模型:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意:不使用时存放位置不限,只要知晓路径即可。训练建议使用 flux1dev.safetensors 和 t5xxl_fp16.safetensors 版本。 下载训练脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 数据集准备: 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 创建数据集:在数据集一栏中,点击右上角创建数据集,输入数据集名称。可以提前将图片和标签打包成 zip 上传,也可一张一张单独上传照片。Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传 zip 后等待一段时间,确认创建数据集,返回到上一个页面等待上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头选择上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词随机抽取数据集中的一个标签填入。 训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数。若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。可按需求选择是否加速,点击开始训练,会显示所需消耗的算力,然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击会自动跳转到使用此 lora 生图的界面,点击下方下载按钮可自动下载到本地。 数据集存放位置:.Flux_train_20.4\\train\\qinglong\\train ,红色文件夹内。若未准备数据集,此路径内有试验数据集可直接使用。 运行训练:约 1 2 小时即可训练完成。 验证和 lora 跑图:若有 ComfyUI 基础,在原版工作流的模型后面,多加一个 LoraloaderModelOnly 的节点即可,自行选择 Lora 和调节参数。
2024-12-27
基于多模态大模型的具身智能 技术原理是什么
基于多模态大模型的具身智能技术原理主要包括以下方面: 决策模块是具身智能系统的核心,负责接收感知模块的环境信息,进行任务规划和推理分析,以指导行动模块生成动作。早期决策模块主要依赖人工编程规则和专用任务算法,而基于近端策略优化算法和 Qlearning 算法的强化学习方法在具身智能自主导航等任务中展现出更好的决策灵活性,但在复杂环境适应能力等方面存在局限。 大模型的出现极大增强了具身智能体的智能程度,提高了环境感知、语音交互和任务决策能力。具身智能体的大模型是 AIGA,调用机械臂、相机等身体部件,其发展方向是视觉语言动作模型(VLA)和视觉语言导航模型(VLN)。 VLA 输入语言、图像或视频流,输出语言和动作,在统一框架内融合互联网、物理世界和运动信息,实现从自然语言指令到可执行动作指令的直接转换。 VLN 输入语言、图像或视频流,输出语言和移动轨迹,用于统一指令输入框架,使大模型直接生成运动方向、目标物体位置等操作信息。 Google Deepmind 从大模型入手打造具身智能,率先提出 Robotics Transformer 系列模型,如 RT1 等,并不断升级。RT1 基于模仿学习中的行为克隆学习范式,输入短的图像序列和指令,输出每个时间步的动作。随着数据量增加,有从分层模型过渡到端到端模型的趋势。 北大 HMI Lab 团队构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力。 在具身智能应用中,更强调“动态”学习方式,如强化学习、模拟学习等,让机器人与环境不断交互学习,通过奖励机制优化行为,获得最优决策策略,摒弃传统控制论算法物理建模的弊端。
2024-12-27
基于世界模型的具身智能 技术原理是什么
基于世界模型的具身智能技术原理主要包括以下方面: 谷歌发布的世界模型 Genie: 能够学习一致的动作空间,可能适合训练机器人,打造通用化的具身智能。 其架构中的多个组件基于 Vision Transformer构建而成,为平衡模型容量与计算约束,在所有模型组件中采用内存高效的 STtransformer 架构。 Genie 包含三个关键组件:潜在动作模型(Latent Action Model,LAM)用于推理每对帧之间的潜在动作;视频分词器(Tokenizer)用于将原始视频帧转换为离散 token;动态模型给定潜在动作和过去帧的 token,用来预测视频的下一帧。潜在动作模型以完全无监督的方式学习潜在动作。 相关论文《Genie:Generative Interactive Environments》已公布,论文地址为 https://arxiv.org/pdf/2402.15391.pdf,项目主页为 https://sites.google.com/view/genie2024/home?pli=1 ,论文的共同一作多达 6 人,包括华人学者石宇歌。 具身智能算法层: 机器人创业公司 Covariant 推出的首个机器人基础模型 RFM1 是基于真实任务数据训练的机器人大模型,共有 80 亿参数,是基于文本、图片、视频、机器人动作、传感器信息等多模态数据进行训练的 any to any 序列模型。 RFM1 将机器人的实际动作也视作 Token,其 token 包括多种模态,每个模块都有专门的 tokenizer 进行处理。操作只有一个——预测下一个 token。 RFM1 对物理世界的理解源自于其学习生成视频的过程,通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化,掌握了模拟世界每个瞬间变化的低层次世界模型。 行业进展: 李飞飞在 AI 3D 生成领域的工作极大地加速了进展,通过对 3D 物体的生成所构建出的世界,再进行降维的视频生成,生成的视频自然符合物理世界的规律,生成的世界也可交互。 世界模型开启了在虚拟世界中预训练机器人的可能,这个虚拟世界完全符合物理规律,可以快速生成无限场景,支持并行训练多个任务,大幅降低试错成本,加速机器人的学习过程,为实现更复杂的机器人行为打开可能。这种进步正在催生新的应用可能,如更自然的人机交互界面、更安全的机器人控制系统、更高效的虚拟训练平台等。世界模型也在改变 AI 理解和交互世界的基本方式。
2024-12-27