「AGIへの道」飛書ナレッジベースへ直行 →

大模型技术和应用动态

回答

以下是关于大模型技术和应用动态的相关信息:

大模型的背景和趋势:

  • 随着大模型技术的成熟和规模增大,其为 AI Agent 提供强大能力,有望构建具备自主思考、决策和执行能力的智能体,广泛应用于多个行业和领域。

大模型的热门应用场景:

  • 游戏开发和互动体验:用于创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。
  • 医疗和健康咨询:理解和回答医疗相关问题,提供初步的健康建议和医疗信息查询服务。
  • 法律和合规咨询:帮助解读法律文件,提供合规建议,降低法律服务门槛。

大模型中的 Embedding 技术:

  • Embedding 是一个浮点数的向量(列表),两个向量之间的距离度量它们的相关性,小的距离表示高相关性,大的距离表示低相关性。
  • Embedding 共有词、句子、文档、图像等分类。
  • 实战方面,可从数据集中获取 Embedding 结果,并保存为 csv 文件。参考 OpenAI 官网最新文档,加上个人测试阶段的问题和代码注释。进阶到企业级应用开发的大模型技术还会涉及利用开源的 Embedding 模型、向量数据库去做检索增强生成(RAG),以及购买 GPU 服务器去基于开源大模型搭建企业级大模型项目。

需要注意的是,随着大模型的普及,也需关注其在隐私、安全和伦理方面的挑战。同时,部分内容由 AI 大模型生成,请仔细甄别。

AIモデルによって生成されたコンテンツであり、慎重に確認してください(提供元: aily)

参照

开发:AI应用大模型商业化落地现状与思考

首先,我们先来看大模型的背景和发展趋势。关于AI的演进历程,很多媒体包括各类研究资料都已经做过详细的介绍,相信今天在座的各位对AI的基本情况都已有所了解,因此我不会过多赘述AI的演进历程。(有兴趣的小伙伴可以多从公开资料中查找一下~)我们的重点将放在大模型当前的应用能力上,随着大模型技术的愈发成熟,规模增大,大模型为AI Agent()提供强大能力。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体,进一步提升大模型的应用能力,广泛应用于多个行业和领域。

问:现在大模型有什么比较火的应用场景

游戏开发和互动体验:大模型可以用于创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。医疗和健康咨询:大模型能够理解和回答医疗相关的问题,提供初步的健康建议和医疗信息查询服务。法律和合规咨询:大模型可以帮助解读法律文件,提供合规建议,降低法律服务的门槛。这些应用场景只是大模型潜力的一部分体现,随着技术的进步和模型的优化,大模型在未来可能会拓展到更多的领域和场景中。同时,随着大模型的普及,也需要注意其在隐私、安全和伦理方面的挑战。内容由AI大模型生成,请仔细甄别。

认识大模型 Embedding 技术加实战

我们认识了Embedding(嵌入)是一个浮点数的向量(列表),两个向量之间的距离度量它们的相关性,小的距离表示高相关性,大的距离表示低相关性。知道了Embedding共有:词、句子、文档、图像等分类。还分析了Embedding在大模型中的价值。最后是Embedding的实战部分:从数据集中获取Embedding结果,并保存为csv文件。最后,本示例中的实战代码,参考的是官方最新文档的内容,加上个人测试阶段的遇到的问题、代码注释等OpenAI官网文档链接:https://platform.openai.com/docs/introduction大模型技术,除了在OpenAI官网能看到的:Embedding、Function Call和Fune Tuning等。进阶到企业级应用开发的大模型技术还会涉及到:利用开源的Embedding模型、向量数据库去做检索增强生成(RAG),以及购买GPU服务器去基于开源大模型搭建企业级大模型项目。

他の質問
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
多模态Agent最新动态
以下是关于多模态 Agent 的最新动态: 《质朴发言:视觉语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》 近期,生成式 AI 领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于 Transformer 架构的视觉语言模型,报告范围专注于视觉和语言之间的交互,不考虑单纯的视觉到视觉的计算机视觉任务。 从 2022 年 11 月 18 日到 2023 年 7 月 26 日,多模态 Agents 迅速增长。 LLM 多模态 agent 是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的 AI 技术。 优点:高度的灵活性和扩展性,可根据不同任务需求调用最合适的模型处理任务,适应多样化任务和数据类型,优化资源使用,提升效率;无需训练,系统开发周期快,成本低。 局限性:调试和工程化难度较高,维护和升级成本高;多个组件紧密耦合,单点故障可能导致整个系统风险增加;没有涌现出新的能力。 适用场景:需要综合处理视频、语音和文本等多种信息的复杂环境,如自动驾驶汽车;高度交互和灵活的用户界面,如客户服务机器人或交互式娱乐应用。 《2024 年度 AI 十大趋势报告》 随着大模型对图像和视频信息的处理能力快速提升,预计 2025 年将开始出现更为综合性的多模态交互,AI 能够通过物联网、特定信息等多种感知通道进行协同。 多模态输入和输出使 AI 交互性更强、交互频次更高,适用场景也更加丰富,AI 产品整体水平显著提升。 Agent 作为融合感知、分析、决策和执行能力的智能体,能够根据用户历史行为和偏好,主动提供建议、提醒并个性化执行能力,为用户提供高度个性化的任务。从 2025 年开始,AI Agent 即将广泛投入使用。 从个性化推荐到直接生成个性化内容,AIGC 能够使用户体验的个性化程度有明显提升,这将帮助产品进一步完善用户体验,并通过提高用户忠诚度和迁移成本,实现差异化定价和进一步的服务增值,对产品的差异化竞争有重大意义。目前,基于 AIGC 的高度个性化已经在 AI 教育、AI 陪伴、AI 营销领域有明显进展。在硬件端搭载的多款 AI 智能助手也已开始以高度个性的个人助理作为宣传重点。
2025-03-31
现在是2025年3月18日,我现在要整理一份AI行业的最新动态,在每天早上十点发布,请你整理今天的最新动态,10条左右
以下是 2025 年 3 月 18 日 AI 行业的最新动态: 1. 3 月 AI 发展持续升温。 2. 3 月潞晨科技发布 OpenSora。 3. 3 月 Suno 发布 V3 版本爆火。 4. OpenAI CPO Kevin Weil 访谈亮点:GPT5 近在眼前,将融合多个模型能力,快速推进,AI 代码自动化将在今年内达到 99%,强化推理能力和大规模预训练是关键方向,AI 不仅会写代码,还将让人人都能成为软件创造者。 5. 2025 年职场思考与建议:高管们面临“经验贬值”与“转型焦虑”,非 AI 公司的估值与融资变难,软件开发方式正被重构,“等风来”的代价越来越高,加入 AI 公司也并非万能,市场冷却下招聘更挑剔。 6. 你的孩子可能已经在用 AI“作弊”。 7. 过去一年,头部 AI 应用的品类变化不显著,创意工具仍占据最大比重。 8. 2024 年 9 月,OpenAI 发布新一代语言模型 o1,采用全新训练与推理方案,结合强化学习技术,显著增强推理能力,可能通过生成内部“思维链”模拟人类系统 2 思维方式。 9. 5 月伊莉雅离开 OpenAI,AI 竞争白热化。 10. 5 月伊利亚成立新公司,估值超五亿美金。
2025-03-18
最新的AI技术动态
以下是关于最新的 AI 技术动态的相关内容: AI 技术的学习路径: 偏向技术研究方向: 数学基础:线性代数、概率论、优化理论等。 机器学习基础:监督学习、无监督学习、强化学习等。 深度学习:神经网络、卷积网络、递归网络、注意力机制等。 自然语言处理:语言模型、文本分类、机器翻译等。 计算机视觉:图像分类、目标检测、语义分割等。 前沿领域:大模型、多模态 AI、自监督学习、小样本学习等。 科研实践:论文阅读、模型实现、实验设计等。 偏向应用方向: 编程基础:Python、C++等。 机器学习基础:监督学习、无监督学习等。 深度学习框架:TensorFlow、PyTorch 等。 应用领域:自然语言处理、计算机视觉、推荐系统等。 数据处理:数据采集、清洗、特征工程等。 模型部署:模型优化、模型服务等。 行业实践:项目实战、案例分析等。 2024 年 AI 大事纪: 3 月:AI 发展持续升温,潞晨科技发布 OpenSora,Suno 发布 V3 版本爆火。 4 月:英伟达发布硬件股价飙升。 5 月:苹果发布 AI 芯片,张吕敏发布 IC light,AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金。 7 月:快手开源 LivePortrait 模型,表情迁移。 8 月:StabilityAI 老板成立新公司发布 flux 大模型。 9 月:阿里云发布模型,海螺 AI 参战,Google 发布 GameGen 实时生成游戏,通义千问 2.5 系列全家桶开源,华为发布 cloud matrix 云计算基础设施,GPT 高级语音模式上线,Meta 发布 AI 眼镜 Orion,AI 代码编辑器 cursor 爆火。 10 月:Pika 发布 1.5 模型,诺奖颁发给 AI 奠基人,特斯拉发布机器人,Adobe 发布 Illustrator+Al 生成矢量图,智谱 AI 发布 autoGLM,腾讯混元开源 3D 模型。 AI 技术的发展历程和前沿技术点: 发展历程: 早期阶段(1950s 1960s):专家系统、博弈论、机器学习初步理论。 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理。 统计学习时期(1990s 2000s):机器学习算法(决策树、支持向量机、贝叶斯方法等)。 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等。 前沿技术点: 大模型(Large Language Models):GPT、PaLM 等。 多模态 AI:视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 自监督学习:自监督预训练、对比学习、掩码语言模型等。 小样本学习:元学习、一次学习、提示学习等。 可解释 AI:模型可解释性、因果推理、符号推理等。 机器人学:强化学习、运动规划、人机交互等。 量子 AI:量子机器学习、量子神经网络等。 AI 芯片和硬件加速。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-16
今天有什么ai新动态
以下是近期的 AI 新动态: 2024 年 3 月:AI 发展持续升温,潞晨科技发布 OpenSora,Suno 发布 V3 版本爆火。 2024 年 4 月:英伟达发布硬件,股价飙升。 2024 年 5 月:苹果发布 AI 芯片,张吕敏发布 IC light,AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金。 2024 年 7 月:快手开源 LivePortrait 模型,实现表情迁移。 2024 年 8 月:StabilityAI 老板成立新公司发布 flux 大模型。 2024 年 9 月:阿里云发布模型,海螺 AI 参战,Google 发布 GameGen 实时生成游戏,通义千问 2.5 系列全家桶开源,华为发布 cloud matrix 云计算基础设施,GPT 高级语音模式上线,Meta 发布 AI 眼镜 Orion,AI 代码编辑器 cursor 爆火。 2024 年 10 月:Pika 发布 1.5 模型,诺奖颁发给 AI 奠基人,特斯拉发布机器人,Adobe 发布 Illustrator+Al 生成矢量图,智谱 AI 发布 autoGLM,腾讯混元开源 3D 模型。 12 月 5 日的 AI 新动态: Clone Robotics:仿生机器人公司致力于生产高仿真产品,技术和外观的进步让人类与机器人的边界变得越来越模糊。 Humane 发布 AI 驱动操作系统 CosmOS,具有多种核心功能,支持多种输入方式,并可实时从互联网获取数据为用户提供服务。 DeepMind 发布天气预测 AI 模型 GenCast,可预测未来 15 天的天气和极端天气风险,与顶级预测系统相比表现更优,且模型代码、权重和预测数据已开源。 OpenAI 的 ChatGPT 用户突破 3 亿。 在法律法规方面: 虽然 AI 概念不新,但近期数据生成和处理的进步改变了该领域及其产生的技术。例如,生成式 AI 模型的能力发展带来机会的同时也引发了关于潜在风险的新辩论。 并非所有 AI 风险都源于不良行为者的故意行为,有些可能是意外后果或缺乏适当控制导致的。 对 AI 特定风险及其潜在危害进行了初步评估,并参考了其威胁的价值,包括安全、公平、隐私、人权、社会福祉和繁荣等。 交叉的 AI 风险评估确定了一系列高级风险,框架将寻求通过适当干预来优先处理和减轻这些风险。例如,安全风险包括对人类和财产的身体损害以及对心理健康的损害。
2025-03-12
如何把图片生成动态立体图
目前在将图片生成动态立体图方面,相关技术和方法还在不断发展和探索中。常见的途径可能包括使用专业的图形设计软件,如 3D 建模工具,通过对图片进行深度分析和建模来实现动态立体效果。但具体的操作过程会因软件的不同而有所差异。另外,一些新兴的 AI 图像生成技术也可能在未来为这一需求提供更便捷的解决方案。
2025-03-05
最新的AI行业动态和进展有哪些,包含2025年
以下是关于最新的 AI 行业动态和进展(包含 2025 年)的内容: 2024 年: 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 有一定操控能力的生成式短视频:风格化、动漫风最先成熟,真人稍晚。 AI 音频能力长足进展:带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟:记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 AI 的商业模式开始有明确用例:数据合成、工程平台、模型安全等。 可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功。 中国 AI 达到或超过 GPT4 水平;美国出现 GPT5;世界上开始现“主权 AI”。 华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年: AI 3D 技术、物理规则成熟:正常人无法区别 AI 生成还是实景拍摄。 全真 AI 虚拟人成熟:包含感情的 AI NPC 成熟,开放世界游戏成熟;游戏中几乎无法区别真人和 NPC。 AR/VR 技术大规模商用。 接近 AGI 的技术出现。 人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源。 具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破。 “人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉。 AI 引发的社会问题开始加重,结构性失业开始出现。 AGI 对于地缘政治的影响开始显露。 此外,还有以下相关动态: 算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。 逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。 人类劳动形式逐步“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。 AI 行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。 云厂商是产业链中毋庸置疑的“链主”。 2024 年,头部 AI 应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC 应用面临较大的挑战。 在 AI 应用领域,Copilot 和 AI Agent 是两种主要的技术实现方式。 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,众多中国 AI 公司积极出海。 2024 年 10 月的大事记包括: Gartner 发布 2025 年十大战略技术趋势。 DeepSeek 开源多模态 LLM 框架 Janus。 司南开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use,发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。
2025-02-17
多模态应用
以下是一些多模态应用的案例: 1. 电商领域: 拍立淘:由淘宝推出,用户拍照即可识别商品并直接进入购物页面,简化购物搜索步骤。 探一下:支付宝推出的图像搜索引擎,拍照后 AI 能识别并搜索相关商品或信息。 2. 创意领域: 诗歌相机:拍照能生成一首诗,还能打印,将诗意与现代技术结合,并做成硬件形式。 3. 技术平台: 阿里云百炼大模型平台为企业侧提供各种原子级别能力,包括多模态能力。 4. 其他应用场景: 融图:如把图二中的机器人合成到图一的环境中,保持比例、细节、光影和氛围感统一。 小红书风格卡片:使用特定风格生成关于特定内容的卡片。 Logo 转 3D 效果:将图标改成 3D 立体、毛玻璃、毛绒等效果。 示意图转卡通漫画:把示意图转成幼儿园小朋友能看懂的漫画并配中文说明。 遥感理解(图像数据):识别图中的建筑物并用色块标注。 包装图直出效果:生成图片对应的包装侧面效果图。 参考生成海报图:参考小红书封面生成 PPT 设计相关封面图。 三维建模模拟:将图片转化为 3D max 建模渲染界面并加入 UI 界面。 手办三视图:保留人物样貌、神态,制作成特定要求的 3D 手办三视图。
2025-04-18
金融业相关AI应用场景或AI技术介绍
在金融业中,AI 有以下应用场景和技术: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,辅助投资者做出更明智的投资决策。 4. 客户服务:提供 24/7 的客户服务,回答客户常见问题。 例如,Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能够一次处理多达数百万份文档,在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等,并返回具体答案,主要面向金融服务公司,如对冲基金和投资银行,同时也适用于律师事务所等其他专业领域。
2025-04-15
结构化思维在AI办公里的应用
结构化思维在 AI 办公中有以下应用: 在 Model Context Protocol 托管平台中: 特色功能方面,Sequential Thinking 提供动态和反思性问题解决的结构化思维过程,适用于复杂问题分析和决策。 核心功能分类包括笔记管理工具(如 Simple Notes MCP Server、Bear MCP Server、Notion 集成)、AI 对话工具(如 Autonomous Coder Agent、OpenAI 兼容 API 集成)、Google Workspace 集成(如 Gmail 和 Google Calendar 集成、多账户管理、邮件搜索和撰写、日历事件管理)、学术研究工具(如 Semantic Scholar 集成、PubMed 搜索、arXiv 论文访问、IACR 密码学文献库访问)、AI 数据库管理(如 MySQL Server 集成、知识图谱记忆服务、DuckDB 集成、Airtable 集成)。 面对 AI 幻觉问题时,可使用结构化思考工具辅助判断,如决策矩阵用于面对多个选择时做出更理性的决策,检查清单用于执行复杂任务时确保每个步骤按计划完成,风险评估模型用于做重要决策时分析不同方案的风险并制定应对措施。 在让 AI 像人类一样思考方面,构建逻辑体感轮子,包括逻辑推理功能和内容抽象功能。内容抽象功能能够高效地组织内容,体现结构化思维,通过心智单元的抽象思维高效地组织复杂任务。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
飞书+AI的应用案例
以下是飞书+AI的应用案例: 在企业运营方面,包括日常办公文档材料撰写整理、营销对话机器人、市场分析、销售策略咨询,以及法律文书起草、案例分析、法律条文梳理和人力资源简历筛选、预招聘、员工培训等。 在教育领域,协助评估学生学习情况,为职业规划提供建议,针对学生情况以及兴趣定制化学习内容,论文初稿搭建及论文审核,帮助低收入国家/家庭通过 GPT 获得平等的教育资源。 在游戏/媒体行业,有定制化游戏、动态生成 NPC 互动、自定义剧情、开放式结局,出海文案内容生成、语言翻译及辅助广告投放和运营,数字虚拟人直播,游戏平台代码重构,AI 自动生成副本。 在零售/电商领域,包括舆情、投诉、突发事件监测及分析,品牌营销内容撰写及投放,自动化库存管理,自动生成或完成 SKU 类别选择、数量和价格分配,以及客户购物趋势分析及洞察。 在金融/保险行业,有个人金融理财顾问、贷款信息摘要及初始批复、识别并检测欺诈活动风险、客服中心分析及内容洞。 线下活动方面: 活动宣传:用飞书文档制作活动宣传页面,用 AI 快速制作海报,用 GPTs 写人员分配和主持人台词,活动从策划到开始仅用 2 天时间。 活动报名:使用飞书的多维表格完成报名表及数据统计。 活动过程:大家在线协同,一起编辑文档,演示时共同展示一个文档。 活动记录:有相关的记录页面。 办活动的初衷是宣扬 AI 不只是降本增效的工具,还有很多乐趣等待挖掘,例如大理户外圆桌讨论、清迈的 AI 逛古城、杭州的 AI 玄学小组。
2025-04-13
能画技术路线图的prompt
以下是关于能画技术路线图的 prompt 相关内容: Midjourney Bot 的 Prompt 类型: 基本 Prompts:可以只是一个单词、短语或表情符号。 高级 Prompts:包括一个或多个图片 URL、多个文本短语以及一个或多个参数。其中,图片 URL 始终位于 prompt 的最前面,以影响完成结果的风格和内容。提示文字是对希望生成的图像的文本描述,精心编写的提示有助于生成惊艳的图像。参数可以改变生成图片的方式,需放在提示语的末尾。 ComfyUI Flux 与 runway 制作绘画视频: 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。 草图上色:使用 flux 的 controlNet,depth 固定,目前 Union 版本不建议权重调太高,结束时间也需注意。 Prompt engineering(提示工程): 开发测试用例:定义任务和成功标准后,创建多样化的测试用例,包括典型示例和边界情况,以确保提示具有鲁棒性。 设计初步提示:制定初步提示,概述任务定义、良好响应的特征及必要上下文,添加规范输入和输出的示例供参考。 根据测试用例测试提示:使用初步提示将测试用例输入,评估模型响应与预期输出和成功标准的一致性,使用一致的评分标准进行系统性的性能评估。
2025-04-19
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
学习AI怎么在工作中使用,提高工作效率,有必要从技术原理开始学习吗
学习 AI 在工作中使用以提高工作效率,不一定需要从技术原理开始学习。以下是一些相关的案例和建议: 案例一:GPT4VAct 是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成,能使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型,通过视觉理解技术识别网页元素,能执行点击和输入字符操作等,但目前存在一些功能尚未支持,如处理视觉信息程度有限、不支持输入特殊键码等。 案例二:对于教师来说,有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”,从理解以 GPT 为代表的 AI 工作原理开始,了解其优势短板,学习写好提示词以获得高质量内容,并基于一线教师工作场景分享优秀提示词与 AI 工具,帮助解决日常工作中的常见问题,提高工作效率。 建议:您可以根据自身工作的具体需求和特点,有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率,可以先从了解常见的 AI 工具和应用场景入手,掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用,了解技术原理会有一定帮助。
2025-04-15
AI相关的最前沿技术网站
以下是一些 AI 相关的前沿技术网站: 1. OpenAI:提供了诸如 GPT 等先进的语言模型和相关技术。 2. Google AI:涵盖了多种 AI 领域的研究成果和应用。 3. Microsoft Research:在 AI 方面有众多创新研究和技术展示。 此外,WaytoAGI 也是一个致力于人工智能学习的中文知识库和社区平台,汇集了上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯。在没有任何推广的情况下,WaytoAGI 两年时间已有超过 300 万用户和超千万次的访问量,其目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝等。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14