Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Gemini是用什么训练的

Answer

Gemini 是在 Google 的 TPU AI 加速器上训练的,似乎没有使用英伟达的 GPU。Google 还推出了全新的 Cloud TPU v5p 和 AI Hypercomputer 超级计算机,将加速 Gemini 的开发,使 AI 模型的训练更快。

Cloud TPU v5p 是目前 Google 最强大、可扩展和灵活的 AI 加速器。它在 TPU v4 的基础上提供了超过 2 倍的 FLOPS(浮点运算次数/秒)和 3 倍的高带宽内存(HBM)。TPU v5p 可以比前一代 TPU v4 更快地训练大型语言模型(LLM),对于嵌入密集型模型,其训练速度比 TPU v42 快 1.9 倍。TPU v5p 的可扩展性是 TPU v4 的 4 倍。

AI Hypercomputer 是一个突破性的超级计算机架构,它采用了集成的系统,包括性能优化的硬件、开放软件、领先的机器学习框架,以及灵活的消费模型。通过系统级协同设计来提高 AI 训练、调优和服务的效率和生产力。具有性能优化的计算、存储和网络硬件,建立在超大规模数据中心基础设施之上,利用高密度占地面积、液体冷却和 Jupiter 数据中心网络技术。通过开放软件使开发者能够调整、管理和动态编排 AI 训练和推理工作负载。提供了一系列灵活和动态的消费选择,包括传统的承诺使用折扣(CUD)、按需定价和现货定价,以及为 AI 工作负载量身定制的消费模型。

Gemini 模型是在一个既包含多模态又包含多语言的数据集上进行训练的。预训练数据集使用来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。使用 SentencePiece 分词器,发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇,并进而提高模型性能。对所有数据集进行过滤,使用启发式规则和基于模型的分类器,还进行安全过滤以删除有害内容。从训练语料库中筛选出评估集。在训练过程中进行分阶段训练,通过增加领域相关数据的权重来改变混合组合,直到训练结束。

Content generated by AI large model, please carefully verify (powered by aily)

References

Gemini相关内容

来源Gemini是在Google的TPU AI加速器上训练的,似乎没有使用英伟达的GPU。Google还推出了全新的Cloud TPU v5p和AI Hypercomputer超级计算机,将加速Gemini的开发,使AI模型的训练更快。Cloud TPU v5p:性能:Cloud TPU v5p是目前Google最强大、可扩展和灵活的AI加速器。它在TPU v4的基础上提供了超过2倍的FLOPS(浮点运算次数/秒)和3倍的高带宽内存(HBM)。速度:TPU v5p可以比前一代TPU v4更快地训练大型语言模型(LLM),提供了2.8倍的速度提升。对于嵌入密集型模型,其训练速度比TPU v42快1.9倍。可扩展性:TPU v5p的可扩展性是TPU v4的4倍,意味着它可以在单个pod中提供更多的FLOPS。AI Hypercomputer:集成系统:AI Hypercomputer是一个突破性的超级计算机架构,它采用了集成的系统,包括性能优化的硬件、开放软件、领先的机器学习框架,以及灵活的消费模型。系统级协同设计:与传统方法相比,AI Hypercomputer采用系统级协同设计来提高AI训练、调优和服务的效率和生产力。性能优化硬件:AI Hypercomputer具有性能优化的计算、存储和网络硬件,建立在超大规模数据中心基础设施之上,利用高密度占地面积、液体冷却和Jupiter数据中心网络技术。开放软件:AI Hypercomputer通过开放软件使开发者能够调整、管理和动态编排AI训练和推理工作负载。灵活消费模型:AI Hypercomputer提供了一系列灵活和动态的消费选择,包括传统的承诺使用折扣(CUD)、按需定价和现货定价,以及为AI工作负载量身定制的消费模型。详细:[https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer](https://t.co/6rTc9DlIGw)

Gemini report 中文翻译

我们在Google开发了一系列高性能的多模态模型Gemini。我们通过图像、音频、视频和文本数据共同训练了Gemini,目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有尖端的理解和推理性能的模型。Gemini 1.0,我们的第一个版本,有三种尺寸:Ultra适用于高度复杂的任务,Pro提供增强性能和可扩展性,适用于大规模部署,Nano适用于设备上的应用程序。每个尺寸都经过特别设计以满足不同的计算限制和应用要求。我们对Gemini模型在广泛的语言、编码、推理和多模态任务上进行了全面的内部和外部基准测试。Gemini在多个任务中获得了SOTA性能,包括语言模型(Anil等,2023;Brown et al.,77.7%2023;Hoffmann et al.,2022年;OpenAI,2023a;Radford等人,2019;Rae等人,2021年),图像理解(Alayrac等人,2022年;Chen等人,2022年;Dosovitskiy等人,音频处理(Radford等人,Google的2023年;张等人,2023年),以及视频理解(Alayrac等人,2022年;Chen等人,2023年。它基于大量的序列模型的工作,机器学习分布式系统来巡礼那大规模模型。

Gemini report 中文翻译

Gemini模型是在一个既包含多模态又包含多语言的数据集上进行训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。我们使用SentencePiece分词器(Kudo和Richardson,2018),发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇,并进而提高模型性能。例如,我们发现Gemini模型可以高效地标记非拉丁脚本,这反过来可以提高模型质量以及训练和推理速度。训练最大模型所使用的标记数量是根据Hoffmann等人(2022)的方法确定的。为了在给定的推理预算下提高性能,较小的模型被训练了更多的token,类似于(Touvron等人,2023a)提倡的方法。我们对所有数据集进行过滤,使用启发式规则和基于模型的分类器。我们还进行安全过滤以删除有害内容。我们从训练语料库中筛选出我们的评估集。通过对较小的模型进行消融实验,确定了最终的数据混合和权重。我们在训练过程中进行分阶段训练,通过增加领域相关数据的权重来改变混合组合,直到训练结束。我们发现数据质量对于一个高性能的模型至关重要,并且相信在寻找预训练的最佳数据集分布方面还存在许多有趣的问题。

Others are asking
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
阶跃星辰、通义千问、Gemini三个视频理解模型哪个收费更便宜
以下是阶跃星辰、通义千问、Gemini 三个视频理解模型的收费情况: 阶跃星辰:输入价格为 0.005~0.015 元/千 tokens,输出价格为 0.02~0.07 元/千 tokens。 通义千问:Qwenvlplus 模型调用价格为 0.008 元/千 tokens,训练价格为 0.03 元/千 tokens。 Gemini 未提及收费信息。 综上,从已有的信息来看,通义千问的收费相对可能更便宜,但具体还需根据您的使用情况和需求来判断。
2025-04-10
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
Gemini现在的表现怎么样?
目前谷歌的 Gemini 多模态模型表现如下: 包括 Ultra、Pro 和 Nano 三种型号,能够处理图像、音频、视频和文本。 原生多模态能力是其优势,一个模型即可完成多种任务。 多模态能力有限,存在幻觉问题和多语言表现不佳的情况。 对中文的理解能力较弱,体验不如 ChatGPT,但在生成质量和与搜索生态结合方面有显著进步,体验比 Bing 和 GPT 好。 Gemini Ultra 在 MMLU(大规模多任务语言理解)上的表现超过了人类专家。 被设计为天生的多模态模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高其有效性。 在文生图方面,能一次性生成多套不同风格的设计,例如在 20 秒内生成 12 张;在抠图、换背景、打光影等方面也有出色表现,能在 10 秒内取得相当稳定的预期结果。 但目前开启条件存疑,例如使用美国加州 IP 和默认英语语言进入 Bard 可能无法找到模型选项进行修改。
2025-03-19
Gemini 2.0 Flash Experimental怎么使用?
使用 Gemini 2.0 Flash Experimental 可以通过以下步骤: 1. 登录 Google AI studio,链接为:https://aistudio.google.com/prompts/new_chat 。 2. 在 Model 中选择 PREVIEW Gemini 2.0 Flash Experimental(new)。 3. 确认选择「Images and text」。 如果您想通过 Google AI Studio 来使用,具体步骤如下: 1. 打开浏览器访问 https://aistudio.google.com/prompts/new_chat ,或者下载 Gemini 应用(Android 或 iOS)。 2. 登录您的 Google 账户。 3. 在 model 选项处选择 Gemini 2.0 Flash Experimental 模型即可。 使用时,编辑图片超简单,只需 3 步: 1. 上传图片:挑选一张您想要修改的图片上传。 2. 输入指令:在对话框里用简单的语言描述您的需求,例如“把衣服改成蓝色”或者“给狗狗加个墨镜”。 3. 等待魔法:点击运行按钮,AI 会马上处理,几秒钟后您就能看到新图片。如果结果不太满意,可以修改指令再次尝试,指令越清晰效果越好,比如“把天空变晴朗,加点云朵”。 需要注意的是,这个功能还在进一步开发中,未来可能会在官网上开放。
2025-03-15
Gemini  2.0 Flash Experimenta
Google 发布的推理模型 Gemini 2.0 Flash Experimental 具有多模态理解、推理、编码等最佳用途,其亮点功能包括展示模型的思维推理过程,能解决复杂问题,应对代码和数学难题。可在 AI Studio 免费体验,据称其低版本已迅速超越 OpenAI 的 o1 模型,Pro 版本尚未发布。相关链接: 。 Gemini 2.0 Flash 现在不仅能通过聊天生成图像,还能通过聊天对话方式任意编辑图像的局部或者全部而不改变图像其他部分。相关案例整理: https://x.com/linaqruf_/status/1899977818563633466?s=46 https://x.com/robertriachi/status/1899854394751070573?s=46 https://x.com/theomediaai/status/1899871111338230110?s=46 https://x.com/techn0_sap1en/status/1899890369044897938?s=46 https://x.com/ai_for_success/status/1899842790072406214?s=46 https://x.com/linusekenstam/status/1899946807565717819?s=46 Gemini 2.0 Flash Experimental 实测设计一个玩具的从 0 到 1 的搭建过程,虽然中间很多细节对不上,但真的兼顾了上下示意图,并且连贯了起来。此外,还有关于一致性测试、视觉陷阱检测等方面的应用,如多图关联创作(隐藏评分点:光影一致性/透视连续性/元素融合度)、逻辑矛盾识别(观察是否提示环境矛盾)。在不同领域也有各种应用,如设计游戏、生成恐怖悬疑小说、装修毛坯房、制造火箭、教人画画等。操作时,右侧选择「Gemini 2.0 Flash Experimenta」并选中模型名。
2025-03-14
这个网站的作用是什么?是通过这个网站更好的使用训练AI吗?
WaytoAGI 网站具有以下功能: 1. 和 AI 知识库对话:您可以在此询问任何关于 AI 的问题。 2. AI 网站:集合了精选的 AI 网站,可按需求找到适合您的工具。 3. AI 提示词:集合了精选的提示词,能复制到 AI 对话网站使用。 4. 知识库精选:将每天知识库的精华内容呈现给大家。 总之,WaytoAGI 网站和 WaytoAGI 知识库相互独立又有关联,希望成为您学习 AI 路上的好助手。
2025-04-13
想自学ai训练师 推荐哪个视频去学习
以下是为您推荐的自学 AI 训练师的视频: 1. 3 月 26 日|自由讨论|离谱视频切磋大会 猫先生介绍自己的背景和擅长领域 AI 学习与实践的重要性 AI 交流会:分享项目经验和技能 讨论比赛规则和资源分配 AI 工具学习与合作 广州 AI 训练师叶轻衣分享使用 AI 工具的经验和想法 组队提升工作效率 AI 技术在 3D 动画制作中的应用与优势 链接:https://waytoagi.feishu.cn/minutes/obcnc915891t51l64uyonvp2?t=0 2. AI 大神 Karpathy 再发 LLM 入门介绍视频 神经网络训练的目标:训练神经网络的目标是让模型学习 token 在序列中彼此跟随的统计关系,即预测给定上下文(token 序列)后,下一个最有可能出现的 token。 Token 窗口:训练时,模型从数据集中随机抽取固定长度的 token 窗口(例如 8000 个 token)作为输入。 神经网络的输入与输出:输入为 Token 序列(上下文),输出为预测下一个 token 的概率分布,词汇表中每个 token 都有一个概率值。 随机初始化与迭代更新:神经网络初始参数是随机的,预测也是随机的。训练过程通过迭代更新参数,调整预测结果,使其与训练数据中的统计模式相匹配。 损失函数与优化:训练过程使用损失函数来衡量模型预测与真实 token 的差距。优化算法(如梯度下降)用于调整参数,最小化损失函数,提高预测准确率。 神经网络内部结构:Transformer 包含注意力机制和多层感知器等组件,能够有效地处理序列数据并捕捉 token 之间的复杂关系。 链接:无
2025-04-12
想自学ai训练师
如果您想自学成为 AI 训练师,以下是一些相关的知识和建议: 一、AI 训练的基本概念 训练是指通过大数据训练出一个复杂的神经网络模型。这需要使用大量标记过的数据来训练相应的系统,使其能够适应特定的功能。训练过程需要较高的计算性能,能够处理海量的数据,并具有一定的通用性,以便完成各种各样的学习任务。 二、相关领域的知识 1. 机器学习:机器学习是人工智能的一个分支,是实现人工智能的途径之一,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 2. 自然语言处理:自然语言(NLP)认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言,是人工智能和语言学领域的分支学科。 三、学习资源和实践 您可以参考以下的一些资源和实践方式: 1. 参加相关的线上交流会,例如 3 月 26 日的自由讨论活动,其中会分享项目经验、技能以及使用 AI 工具的经验和想法。 2. 了解一些健身的 AI 产品,如 Keep(https://keep.com/)、Fiture(https://www.fiture.com/)、Fitness AI(https://www.fitnessai.com/)、Planfit(https://planfit.ai/)等,虽然这些主要是健身领域的应用,但也能帮助您了解 AI 在不同场景中的应用和创新。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-12
怎么用把AI训练成自己的东西?
要将 AI 训练成自己的东西,可以参考以下方法: 1. 像马斯克提到的,对于公开的推文数据可以合理使用,但不能使用私人的东西进行训练。同时,要注重数据的质量和使用方式,高质量的数据对于训练效果至关重要。 2. 张梦飞的方法中,例如部署 LLama Factory 时,需要添加选中“identity”数据集,将训练轮数改成 15 等,并通过一系列操作进行训练和测试。但需要注意的是,训练大模型是复杂的过程,数据集和训练参数都会影响最终效果,需要反复调试和深入学习实践。 3. 在写作方面,我们可以根据自身需求选择人类驱动为主,利用 AI 进行修改完善,或者先由 AI 生成内容再进行修改以符合自己的风格。
2025-04-11
如何训练一个AI 阅读教练
训练一个 AI 可以类比为培养一位职场新人,主要包括以下三个阶段: 1. 规划阶段:明确目标 确定 AI 的具体任务,比如结构化外文精读等。 将任务拆解为可管理的子任务。 设计每个子任务的执行方法。 2. 实施阶段:实战指导 搭建工作流程。 为每个子任务设置清晰的操作指南。 像指导新员工一样,手把手引导 AI 完成任务,并及时验证其输出质量。 3. 优化阶段:持续改进 通过反复测试和调整,不断优化 AI 的性能。 调整工作流程和 Prompt 配置,直到 AI 能稳定输出高质量的结果。 当前大模型在处理多步骤复杂任务时存在明显局限,比如在“数据分析图表、剧情游戏”或“本文结构化外文精读”等任务中,仅依靠单一 Prompt 指令难以稳定执行,现阶段的 AI 更像缺乏独立解决问题能力的职场新人,需要遵循指引和给定的流程才能完成特定任务。如果您已经完全了解上述内容,不妨自己设定一个任务目标,动手构建一个专属于自己的 AI 。
2025-04-11
模型训练的基本名词和方法
以下是关于模型训练的基本名词和方法的介绍: 基本名词: 1. 过拟合&欠拟合:过拟合和欠拟合都是不好的现象,需要加以控制以让模型达到理想效果。解决方法包括调整训练集、正则化和训练参数等,过拟合可减少训练集素材量,欠拟合则增加训练集素材量。 2. 泛化性:泛化性不好的模型难以适应其他风格和多样的创作。可通过跑 lora 模型生图测试判断泛化性,解决办法与过拟合和欠拟合类似,从训练集、正则化、训练参数等方面调整。 3. 正则化:是解决过拟合和欠拟合情况、提高泛化性的手段,给模型加规则和约束,限制优化参数,有效防止过拟合,提高模型适应不同情况的表现和泛化性。 方法: 1. 全面充分采集训练素材:例如在角色训练素材中,应包含各种角度、表情、光线等情况的素材,确保模型具有较好泛化性。 2. 图像预处理:对训练素材进行分辨率调整、裁切操作,并对训练集进行打标签处理。 3. 参数调优:尽量将训练时长控制在半小时左右,过长易导致过拟合,通过调整参数控制时长。 4. 观察学习曲线:通过观察学习曲线来调整训练素材和参数。 5. 过拟合&欠拟合处理:测试训练好的模型,观察过拟合和欠拟合问题,进一步通过调整训练素材和正则化等手段优化。 此外,在模型训练中还需注意: 1. 数据集获取渠道:可通过网上收集、购买、使用无版权问题的如古画等,原则是根据生成图的需求找对应数据集,要清晰、主体元素干净、风格统一。 2. 数据集处理:包括基础处理如裁剪保证清晰和分辨率,更重要的是写标注。 3. 设置模型触发词:可自定义,完整形式可以是一句话,建议以王 flags 模型为主。 4. 统一标注风格与应用场景:例如未来高科技 3D 天然风格,用于互联网首页图像等,并概括主题内容、描述物体特征等。 5. 利用 GPT 辅助描述并人工审核:让 GPT 按要求描述,人工审核修改。 6. 模型训练的准备与流程:完成数据集描述后进入训练流程,选择模型训练分类和数据集,创建并上传数据集压缩包,注意数据名与图片命名一致。选择训练模式和参数,新手选用普通基础模式,训练集质量重要,训练参数中总步数与训练集图片数量相关,触发词设定要避免概念混乱。
2025-04-09