Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型合规

Answer

大模型的安全问题包括以下方面:

  1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT-3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。
  2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。
  3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。

大模型的特点包括:

  1. 架构:分为 encoder-only、encoder-decoder、decoder-only 三类,目前熟知的 AI 助手多为 decoder-only 架构,由 transformer 衍生而来。
  2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT-3 已达 170B 的参数。

GPT-3 与 ChatGPT 相比,除形式不同外,安全性也有差别。

Content generated by AI large model, please carefully verify (powered by aily)

References

从 0 到 1 了解大模型安全,看这篇就够了

[title]从0到1了解大模型安全,看这篇就够了这张图来自于OpenAI()于2022年发布的论文,正是这篇论文造就了我们所熟知的ChatGPT。通过对齐,也叫做指令调优,使得语言模型更好的理解人类意图,同时也对语言模型增加了安全保障,确保语言模型不会输出有害的内容和信息。对于对齐任务来说,我们可以拆解为两部分第一个部分是图中的Step-1.监督微调第二个部分则是图中的二和三,通过Step2获取reward model与通过Step3进行强化学习,调整语言模型的输出分布。这两种方法都能用于保证语言模型的安全LLAMA2()是当前使用最广泛的开源大型语言模型,在其技术报告中提到他们专门使用了安全有监督微调用于确保语言模型的安全.通过给定危险的问题和拒绝的回答,语言模型就像背诵一样,学会了对危险的查询生成拒绝的响应强化学习通过引入带有人类反馈的数据对模型进行强化学习,根据人类的偏好和反馈,语言模型在调整分布的过程中,需要更细粒度的思考,究竟什么样的答案是更好的,更安全的.并且由于引入了类似思考的过程,语言模型在面对训练分布外的数据,也有可能学会举一反三的拒绝掉不该回答的内容,更少的胡编乱造,产生幻觉性的输出那么Alignment就足够防护所有的安全问题了吗?毕竟现在的大型语言模型如GPT-4和Claude()等已经几乎不会回复危险的问题了.不,并不安全,就像测试工程师经常苦恼的问题一样,用户们的创造力是无穷的.,他们会用各种各样难以想象的方法试图得到他们想要的”不受束缚的”AI这种技术被统称为越狱,Jailbreak!通过Jailbreak,模型的对齐基本失效,重新变为一个回答各种问题的模型关于越狱部分,我将在文章的后半部分中专门详细讲解。在这里,我们先来讲讲隐私问题。

从 0 到 1 了解大模型安全,看这篇就够了

[title]从0到1了解大模型安全,看这篇就够了这个区别是因为,GPT-3仍然是一个用于完成预测下一个词的语言模型,而ChatGPT是经过指令微调,也可以称为对齐的语言模型。一个更加危险的问题是由于大型语言模型在海量的数据上进行预训练,上百亿的参数也为其提供了强大的能力,因此用于预测下一个单词的语言模型是有着巨大危险的。相反,目前的AI助手,往往不会回答这些危险的问题,那么从GPT-3到ChatGPT,究竟发生了什么,使得语言模型更加安全?不会直接回答这些危险的问题呢?接下来,我们介绍一下大模型的安全问题。那么现在的AI助手是如何学会不回答危险或有害的内容呢?目前主流的方法有这三种一个最直观的办法,就是我们在预训练阶段,对模型的预训练数据进行过滤,不让模型学习那些我们不想要的有害知识,例如图示中的红色文档,灰色文档则代表有一定有害数据,但达不到过滤阈值的这样模型学习到的知识中就不直接包含这些有害数据了但此方法往往应用于工业界,例如baichuan2在其开源的技术报告中就提到他们使用了这种技术进行了数据过滤,用于减少模型的有害输出但是考虑到数据之间的关联性,即使一些有害信息丰富的文档被删除掉,但大模型仍然可能从数据的关联中学会有害的内容,并且在面对不良信息时,模型缺少相关知识,反而有可能因此仅仅使用数据过滤是不够的。ChatGPT的早期版本,也就是我们俗称的GPT3.5,正是由GPT-3经过对齐得来的通过让模型与人类的价值观进行对齐,语言模型的任务目标从续写变为了人类的AI助手不光输出形式和任务形式发生了极大的变化并且对齐的helpful,honest,harmless原则确保了语言模型输出的无害性和真实性。那么对齐是如何确保语言模型的输出是安全的,又是如何训练的呢?

从 0 到 1 了解大模型安全,看这篇就够了

[title]从0到1了解大模型安全,看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。

Others are asking
个人微信接入ai合规吗
个人微信接入 AI 存在一定风险和合规问题。微信端的这种接入属于非常规使用,可能会有封号危险,不建议使用主力微信号接入。 在操作过程中,需要注意以下几点: 1. 接入大模型 API 实现时需要单独付费。 2. 对大模型生成的内容要注意甄别,确保所有操作均符合相关法律法规的要求。 3. 禁止将此操作用于任何非法目的。 4. 处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 此外,关于将 AI 接入微信的实现步骤,可参考以下内容: 1. 注册 AI 模型: 进入智普 AI:https://open.bigmodel.cn/ 。 点击开始使用,注册登录。 按照要求进行认证,点击控制台,查看 API key,添加新的 API key 并复制保存。 2. 注册云服务器: 新用户点击去注册腾讯云: 。 微信扫码注册,首次注册选择第一个。 选择地域和镜像(宝塔 8.1.0),点击立即试用。 进入腾讯云服务台,登录(可微信扫码登录)。 复制 sudo/etc/init.d/bt default 并粘贴回车,保存输出内容。 返回服务器控制台,在防火墙菜单栏添加规则,手动输入相关内容并确定。
2025-03-09
我希望通过ai做好我企业内部的智能巡检。巡检内容主要是针对企业的门店的招牌门头是否合规给出意见。主要合规性检查包括:Logo是否符合公司的设计标准;门头的颜色搭配、尺寸是否符合标准(还要提醒褪色),请问大体应该是各什么思路?
很抱歉,飞书知识库中没有与您关于通过 AI 做好企业内部门店招牌门头智能巡检思路的直接相关内容。但一般来说,您可以考虑以下思路: 1. 数据采集:使用图像采集设备获取门店招牌门头的图像数据。 2. 图像识别技术:运用 AI 的图像识别能力,对采集到的图像进行分析,识别 Logo、颜色、尺寸等元素。 3. 建立标准模型:根据公司设计的标准,建立合规性的模型,以便与采集到的图像进行对比。 4. 智能判断:通过算法判断门头的各项元素是否符合标准,包括 Logo 是否与标准一致,颜色搭配、尺寸是否在规定范围内,以及是否存在褪色等问题。 5. 生成报告和提醒:根据判断结果生成详细的报告,并及时提醒相关人员进行整改。
2025-02-25
合规性审查
以下是关于合规性审查的相关内容: 套壳产品的合规管理策略: 1. 深入了解相关法律法规:企业应熟悉涉及知识产权、消费者权益保护、产品安全、市场监管等方面的法律法规,确保产品设计、生产、销售和营销活动符合这些法律法规。 2. 尊重知识产权:对于采用或参考他人作品的产品,确保已获得必要的许可和授权,避免侵犯版权、商标权、专利权等。 3. 进行产品合规性审查:在产品开发阶段,进行合规性审查,确保产品设计、材料和功能符合所有适用的行业标准和法规。 4. 建立风险管理机制:制定风险评估和管理流程,定期评估产品的合规性风险,并制定相应的风险缓解措施。 5. 加强质量控制:确保产品经过严格的质量控制流程,符合消费者安全和产品质量的标准。 6. 透明和诚实的营销:在产品推广和营销中,确保所有声明都是准确、透明和不具误导性的。 7. 建立监督和审计流程:定期对产品和业务流程进行内部审计,以确保持续的合规性。 8. 员工培训和意识提升:对员工进行合规和道德培训,确保他们理解公司政策和相关法律法规,以及他们在维护合规性方面的责任。 9. 建立应急响应计划:制定应对潜在合规问题和危机情况的应急计划,包括迅速反应机制、责任分配、沟通策略等。 10. 与法律顾问合作:在关键的产品开发和市场推广阶段,与法律专家合作,以确保所有操作符合法律要求。 AI 陪伴产品的合规措施: 为了确保 AI 陪伴产品的合规性,制造商和开发者需要采取一系列措施。这包括遵循数据保护法规,设计安全的软硬件,确保儿童用户的隐私和安全,提供产品的透明度和可解释性,避免偏见和歧视,确保用户充分理解他们的权利和义务,考虑产品对用户心理健康和社会行为的影响,定期对产品进行监测和更新,进行合规性审核和认证,以及提供用户教育和支持服务。 金融服务业中生成式 AI 对合规性的作用: 1. 高效筛查:生成式 AI 模型可以迅速将任何个体在不同系统中的关键信息汇总并呈现给合规官员,使合规官员能更快地得出交易是否存在问题的答案。 2. 更准确地预测洗钱者:根据过去 10 年的可疑活动报告(SARs)进行训练的模型,无需明确告诉模型洗钱者是什么,AI 可以用来检测报告中的新模式,并创建其自己对洗钱者构成的定义。 3. 更快的文档分析:合规部门负责确保公司的内部政策和程序得到遵守,并且遵循监管要求。生成式 AI 可以分析大量的文档,如合同、报告和电子邮件,并标记需要进一步调查的潜在问题或关注区域。 4. 培训和教育:生成式 AI 可以用于开发培训材料,并模拟真实世界的场景,以教育合规官员关于最佳实践以及如何识别潜在风险和不合规行为。 5. 新进入者可以使用来自数十个机构的公开可用合规数据进行自我启动,并使搜索和综合变得更快、更便捷。较大的公司从多年收集的数据中受益,但他们需要设计适当的隐私功能。合规长期以来一直被视为一个由过时技术支持的不断增长的成本中心。生成式 AI 将改变这一点。 总之,套壳产品虽可能带来短期经济效益,但长期潜在风险不容忽视,企业应采取全面合规管理策略。AI 陪伴产品在带来便利的同时也带来挑战,制造商和开发者须承担社会责任确保合规性和安全性。金融服务业中生成式 AI 能改善合规性,但也需注意隐私功能设计等问题。
2025-02-22
智能合规性分析
以下是关于智能合规性分析的相关内容: 在金融服务业中,生成式 AI 能带来更好的合规性,具体表现为: 1. 高效筛查:迅速汇总个体在不同系统中的关键信息,让合规官员更快得出交易是否存在问题的答案。 2. 更准确地预测洗钱者:根据过去 10 年的可疑活动报告训练模型,创建对洗钱者构成的定义。 3. 更快的文档分析:分析大量文档,标记潜在问题或关注区域。 4. 培训和教育:开发培训材料,模拟真实场景,教育合规官员。 欧洲议会和欧盟理事会规定了人工智能的统一规则,包括成员国的市场监督管理机关和委员会应能提议联合行动,促进合规、查明不合规情况等。对于建立在通用人工智能模型基础上的人工智能系统,明确了国家和联盟一级的责任和权限。 未来,拥抱生成式 AI 的合规部门有望阻止每年在全球范围内非法洗钱的巨额资金。如今,合规软件主要基于“硬编码”规则,存在诸多问题,生成式 AI 可能带来改变。
2025-01-27
AI合规审核,产品包装信息如何借助AI进行智能审核
利用 AI 进行产品包装信息的智能审核,可以参考以下类似的方法和步骤: 1. 数据收集与分析:利用 AI 工具收集和分析大量的产品包装信息数据,包括市场上已有的成功案例、相关法规要求等,以了解常见的模式和问题。 2. 关键词提取与匹配:通过 AI 提取产品包装中的关键信息,并与合规要求的关键词进行匹配,快速筛选出可能存在问题的部分。 3. 图像识别与内容审查:运用 AI 图像识别技术审查包装上的图片、图标等元素,确保其符合相关规定,同时对文字内容进行深度分析。 4. 法规库对接:将 AI 系统与最新的法规库进行对接,实时更新审核标准,保证审核的准确性和及时性。 5. 风险评估与预警:AI 可以根据分析结果评估包装信息的合规风险,并及时发出预警,提示修改。 6. 个性化审核模型:根据不同产品类型和行业特点,训练个性化的 AI 审核模型,提高审核的针对性和准确性。 7. 反馈与优化:根据审核结果和用户反馈,不断优化 AI 模型,提高审核的质量和效率。
2025-01-13
AI合规审核,产品保证信息如何借助AI进行只能审核
以下是关于借助 AI 进行产品保证信息合规审核的一些建议: 1. 建立用户的举报和响应机制:在网站建立相关投诉举报机制,如设置侵权举报按钮,简化举报流程,并建立快速响应团队,负责评估收到的侵权举报,并在必要时采取法律行动。 2. 对用户进行潜在风险提示,明确用户责任与义务:在用户协议中详细列出禁止侵权行为的条款,并明确违反协议的法律后果。通过用户教育活动,如在线研讨会、指南和常见问题解答,提高用户对版权的认识。 3. 企业应当深入钻研相关法律法规,深化版权合规流程: 定期组织知识产权法律培训,确保团队成员对相关法律法规有深刻理解,涵盖适用于 AI 生成内容的版权法、AI 创新的专利申请策略,以及对国际知识产权法律差异的理解等内容。 建立专门的法律合规团队,其职责不仅是监控,还需主动解释新法律变动对公司运营的影响,包括对新立法进行影响分析、从法律角度对产品开发提供建议,以及制定内部政策以指导公司对法律更新的响应。 制定严格的数据来源审核流程,确保所有用于训练 AI 的数据均获得明确的版权授权。对于 AI 生成的内容,应实行版权审核机制,以确保这些内容要么是原创的,要么已经得到授权使用。 4. 建立企业内容过滤与监控系统:开发或采用先进的内容识别技术,如图像识别和文本匹配,自动识别并过滤潜在的侵权内容。同时,建立内容监控小组,负责人工审核由用户生成的内容,确保过滤系统的准确性。通过结合使用技术和人工审核,提高识别侵权内容的能力,保护企业和用户免受侵权风险。
2025-01-13
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14