Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何构建自己领域的微调数据集

Answer

构建自己领域的微调数据集可以参考以下步骤:

  1. 确定目标领域和应用需求:明确您希望模型在哪个细分领域进行学习和优化。
  2. 数据收集:广泛收集与目标领域相关的数据。例如,若要训练二次元模型,需收集二次元优质数据;若要微调 Llama3 ,可参考相关文档获取数据集。
  3. 数据标注:对收集的数据进行准确标注,以便模型学习到有效的特征。
  4. 数据清洗:去除无效或错误的数据,提高数据质量。
  5. 特殊处理:如为数据添加特殊 tag 等。

以 Stable Diffusion 为例,可收集如 833 张宝可梦数据,并按照特定步骤进行清洗、标注和添加特殊 tag 。对于 Llama3 ,获取数据集后上传到服务器,编写并执行微调代码即可进行微调。

在微调过程中,还需注意一些问题,如大型语言模型微调可能面临训练时间长、成本高等挑战,此时可考虑参数有效调优等创新方法。

Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

微调(finetune)训练是让SD全参数重新训练的一种方法,理想的状态是让SD模型在原有能力的基础上,再学习到一个或几个细分领域的数据特征与分布,从而能在工业界,学术界以及竞赛界满足不同的应用需求。Rocky为大家举一个形象的例子,让大家能够能好理解SD全参微调的意义。比如我们要训练一个二次元SD模型,应用于二次元领域。那么我们首先需要寻找合适的基于SD的预训练底模型,比如一个能生成二次元图片的SD A模型。然后我们用A模型作为预训练底模型,并收集二次元优质数据作为训练集,有了模型和数据,再加上Rocky为大家撰写的SD微调训练全流程攻略,我们就能训练获得一个能生成二次元人物的SD行业模型,并作为二次元相关产品的核心大模型。那么话不多说,下面Rocky将告诉大家从0到1使用SD模型进行微调训练的全流程攻略,让我们一起来训练属于自己的SD模型吧!(1)SD微调(finetune)数据集制作在SD全参数微调中,SD能够学习到大量的主题,人物,画风或者抽象概念等信息特征,所以我们需要对一个细分领域的数据进行广泛的收集,并进行准确的标注。Rocky这边收集整理了833张宝可梦数据,包含多样的宝可梦种类,组成宝可梦数据集,作为本次SD微调训练的训练集。宝可梦数据集接下来,我们就可以按照本文6.3 Stable Diffusion数据集制作章节里的步骤,进行数据的清洗,自动标注,以及添加特殊tag。

大圣:全网最适合小白的 Llama3 部署和微调教程

大模型微调的意义在于学习新的知识,因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档:[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master·datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集:json下载地址:[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)[huanhuan.json](https://bytedance.feishu.cn/space/api/box/stream/download/all/R73db8mk5o7bNix4semcdsMAnAe?allow_redirect=1)[heading3]进行微调[content]有了数据集,就可以使用代码进行微调了。1.首先我们把数据集上传到你的服务器1.编写微调代码代码如下:1.执行微调代码1.微调完成大概15分钟左右就可以微调完成

9. 生成式 AI Studio 简介

12:29即使您确实为您的用例发现了一个好的提示,您可能会注意到模型响应的质量并不完全一致。为了缓解这些问题,我们可以做的一件事是调整模型。12:40那么调音是什么?好吧,您可能熟悉的一个版本是微调。在这种情况下,我们采用在通用数据集上预训练的模型。我们复制了这个模型。12:51然后,以这些学习到的权重为起点,我们在新的特定领域数据集上重新训练模型。这种技术对于许多不同的用例都非常有效。13:01但是当我们尝试微调LLM时,我们遇到了一些挑战。顾名思义,法学硕士是大型的。因此更新每个权重可能需要很长时间的训练工作。13:12将所有这些计算与现在必须为这个巨大模型提供服务的麻烦和成本相结合……因此,微调大型语言模型可能不是您的最佳选择。13:21但是有一种创新的调优方法称为参数有效调优。这是一个非常令人兴奋的研究领域,旨在通过仅训练一部分参数来减少微调LLM的挑战。13:34这些参数可能是现有模型参数的子集。或者它们可以是一组全新的参数。例如,也许您向模型添加了一些额外的层或额外的嵌入13:45到提示。如果您想了解更多关于参数有效调整和一些不同方法的信息,本课程的阅读列表中包含一篇摘要论文。13:53但如果您只想着手构建,那么让我们转到Generative AI Studio,看看如何开始调优工作。从Generative AI Studio的语言部分,14:02选择调整。为了创建一个调整模型,我们提供了一个名称。然后指向训练数据的本地或Cloud Storage位置。参数有效调整非常适合您拥有“适度”数量的场景14:14训练数据,例如数百或数千个训练示例。您的训练数据应以文本到文本格式构建为受监督的训练数据集。数据中的每条记录或行都将包含输入文本,换句话说,提示,

Others are asking
热点的大模型微调蒸馏工具有哪些
以下是一些热点的大模型微调蒸馏工具: FLUX.1:包括 FLUX.1(可商用,为本地开发和个人使用定制,生成速度快,内存占用小,在 Apache 2.0 许可下公开提供,支持在 Replicate、fal.ai 和 Comfy UI 等平台使用,且支持用户根据自己数据集微调)。其训练参数高达 120 亿,在图像质量、提示词跟随等多方面超越流行模型,工作原理基于混合架构,结合变换器和扩散技术。 基于阿里云 PAI 平台:可复现 R1 蒸馏及蒸馏训练模型过程。部署 32b 的蒸馏模型展示效果,包括模型部署(如选中模型卡片后的操作、选择 vLLM 部署、涉及竞价系统等)、蒸馏数据获取(在本地 python 环境或 notebook gallery 建立实例执行代码获取蒸馏数据集)等。 DeepSeek:PaaS 平台支持多机分布式部署,满足推理性能要求,能一站式完成模型蒸馏。可登录 Pad 控制台通过 model gallery 进行部署,如 Deepseek R1 模型,可选择 SG 浪或 Vim 推理框架,根据资源出价部署,部署后可在模型在线服务 EAS 查看状态。还介绍了模型 API 调用、服务关停、蒸馏概念、应用场景及部署实操等。
2025-04-13
deepseek v3微调
以下是关于 Deepseek V3 微调的相关信息: 云舒文章总结卡 2.0 提示词全面支持 Deepseek V3,效果媲美 Claude3.7。V3 需要为 0324 更新的版本,DS 官网及 API 已更新,如调用其它平台 API 需要查看 DS 版本号。提示词复制链接:。横版为 1080 x 800 卡片提示词,竖版为 750 x 不限高卡片提示词。 各平台均需下载 html 文件,打开后才能查看真实效果,平台自带预览因兼容性问题无法正常展示效果。Claude 使用平台包括 Claude3.7 官网、API、Cursor,使用时需要下载为 HTML 文件打开查看效果。Deepseek 使用平台包括 Deepseek 官网、API(V3 需要为 0324 更新的版本),Deepseek 需要复制代码到 html 文件里,然后保存进行查看。 关于智能纪要,会带着大家复现模型的蒸馏和微调,并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面。 北京时间 00:30 至 08:30 期间,DeepSeek API 价格大幅下调,DeepSeekV3 降至原价的 50%。
2025-04-12
有哪些针对CoT能力的微调工具
以下是一些针对 CoT 能力的微调工具: 1. Selfconsistency CoT:使用手动设计的 Prompt 生成采样一组不同的推理路径,再通过“多数投票”找到推理步骤中“最一致”的路径,使用这条解码路径驱动原始的贪心解码方式来提示 CoT 性能。 2. MMCoT:侧重使用微调方法嵌入 CoT,通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中,使用微调大模型赋予输入多模态 CoT 的能力。 3. GoTInput 方法:通过对 CoT 生成的思维图进行抽取构建三元组,并使用 GNN 将文本、图像与 CoT 统一,从而生成包含 CoT 信息的最终答案。 4. VCoT:解决了一个输出多模态的问题,通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程,通过递归的方式填充图像信息,从而实现输出多模态。 此外,在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时,自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时,也探索了几种替代方案。 在强化学习驱动的合成数据生成与模型优化流程中,也涉及到 CoT 的相关应用和优化,如初始 CoT 生成、CoT 存储等。
2025-04-12
本地部署大模型,如何微调建立本地知识库
以下是关于本地部署大模型并微调建立本地知识库的详细步骤: 一、使用 AnythingLLM 进行本地知识库搭建 1. 安装 AnythingLLM 安装地址:https://useanything.com/download 安装完成后进入配置页面,主要分为三步: 第一步:选择大模型 第二步:选择文本嵌入模型 第三步:选择向量数据库 2. 构建本地知识库 在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。 上传文档并在工作空间中进行文本嵌入。 选择对话模式,提供了 Chat 模式(大模型根据训练数据和上传文档数据综合给出答案)和 Query 模式(大模型仅依靠文档中的数据给出答案)。 二、张梦飞的全本地部署教程 1. 部署大语言模型 下载并安装 Ollama 点击进入,根据电脑系统,下载 Ollama:https://ollama.com/download 下载完成后,双击打开,点击“Install” 安装完成后,将下方地址复制进浏览器中。如果出现下方字样,表示安装完成:http://127.0.0.1:11434/ 下载 qwen2:0.5b 模型 如果是 Windows 电脑,点击 win+R,输入 cmd,点击回车;如果是 Mac 电脑,按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 复制相关命令行,粘贴进入,点击回车。 三、智能纪要中的相关内容 在智能纪要中,许键介绍了模型 API 调用方法与知识库创建,包括获取 API key 位置及调用设置,详细讲解了创建 Rag 应用(知识库)流程,如上传非结构化文件、数据解析、切分段落等操作,并回答了诸多问题。同时还涉及工作流创建、模型能力及相关问题的探讨,以及通义千问相关应用及明天课程安排交流等内容。 总之,本地部署大模型并建立本地知识库需要按照上述步骤进行操作和配置,同时不断实践和探索,以达到理想的效果。
2025-04-10
如何做 deepseek 微调
要进行 DeepSeek 微调,以下是一些相关的知识和步骤: 1. 模型蒸馏微调:会带着大家复现模型的蒸馏和微调,并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。 2. 本地部署介绍:如果拥有云服务器,可以进行本地部署,了解满血版本地部署的实际情况。 3. 免费额度说明:在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 4. 平台服务差异:了解 DLC、DSW 和 EAS 等模型部署平台服务的差别。 5. 对于微调的全过程,建议阅读 Unsloth 笔记本和 HuggingFace 的《如何微调开放式 LLMs》,也可以使用《如何在一小时内阅读论文》作为指南。 6. 更加完善的训练说明,可直接阅读官方论文:DeepSeekAI《DeepSeekR1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
2025-04-08
怎么本地部署ai模型,并进行微调
以下是本地部署 AI 模型并进行微调的主要步骤: 1. 选择合适的部署方式:包括本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源:确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础:可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练:根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型:将训练好的模型部署到生产环境,对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护:大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 此外,关于本地部署还有以下相关内容: 如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。 在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。 会带着大家复现模型的蒸馏和微调,并讲解相关知识。 PaaS 平台支持多机分布式部署,满足推理性能要求,使用独占资源和专有网络,能一站式完成模型蒸馏。 登录 Pad 控制台,通过 model gallery 进行部署,如 Deepseek R1 模型,可选择 SG 浪或 Vim 推理框架,根据资源出价,部署后可在模型在线服务 EAS 查看状态。 介绍了模型 API 的调用方法,包括查找位置、获取 token 等,强调使用后要及时停止或删除服务以避免持续付费。 总的来说,部署和训练自己的 AI 模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。
2025-03-27
知识库怎么构建
构建知识库的方法主要有以下几种: 1. 使用 Flowith 构建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,为其起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 等待 Flowith 对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 2. 使用 Dify 构建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:根据需求选择高质量模式、经济模式或 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 3. 本地部署大模型并搭建个人知识库(涉及 RAG 技术): 了解 RAG 技术:大模型训练数据有截止日期,RAG 可通过检索外部数据并在生成步骤中传递给 LLM 来解决依赖新数据的问题。 RAG 应用的 5 个过程: 文档加载:从多种来源加载文档,如 PDF、SQL 等。 文本分割:把文档切分为指定大小的块。 存储:包括将文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器:将用户提供的文本加载到内存中以便后续处理。
2025-04-15
comfyui动画片工作流怎么构建
构建 ComfyUI 动画片工作流的步骤如下: 1. 打开 Comfyui 界面后,右键点击界面,找到 Comfyui LLM party 的目录。您可以学习手动连接节点来实现最简单的 AI 女友工作流,也可以将工作流文件拖拽到 Comfyui 界面中一键复刻提示词工程实验。 2. 从 ollama 的 github 仓库找到对应版本并下载。启动 ollama 后,在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。 3. 若 ollama 连接不上,很可能是代理服务器的问题,请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。 此外,还有以下相关工作流搭建的信息供您参考: 1. 搭建艺术二维码工作流:打开 ComfyUI 导入相应工作流。工作流所用到的节点包括大模型节点(可选择如 AWPainting、primemixanything、xxmix9realistic v40 等,并提供了相应链接)、关键词节点、Lora 节点、ControlNet 节点(选用 qrcode_monster V2 版本,下载链接:https://huggingface.co/monsterlabs/control_v1p_sd15_qrcode_monster/tree/main/v2 )、采样器节点(Step 选择高步数,35 50 即可,采样器默认的 euler a/dpmpp 2m sde )。 2. 搭建 ComfyUI 基础工作流:从零开始搭建时,首先准备加载大模型的节点,在工作区鼠标右键点击,选择 Add Node > 选择 loaders > 选择 Load Checkpoint,并选择对应的模型。然后加载 Conditioning(条件),在工作区鼠标右键点击,选择 Add Node > 选择 Conditioning > 选择 CLIP TEXT Encode,输入正反向提示词。添加采样器时,部分参数设置与 WEB_UI 有所不同,如 seed 值只有固定、随机、每次增加、每次减少这四个选项,采样器和调度器是分开的。
2025-04-13
flowith根据自然语言构建一个直接使用的工作流吗,如何向flowith提出要求
Flowith 可以根据自然语言构建工作流。即使没有专业编程技能,只要能用清晰的自然语言描述出想要的各个 Agents 具备的行为和功能,就可以快速制作多 Agents 应用或创建代理式工作流。 使用工作流的步骤如下: 1. 配置工作流: 在 Code 节点内使用 IDE 工具,通过 AI 自动生成代码或编写自定义代码逻辑,来处理输入参数并返回响应结果。 该节点支持 JavaScript、Python 运行时,需注意不同运行时的特定事项。 可在 IDE 底部单击尝试 AI,并输入自然语言设定代码逻辑,也可选中代码片段通过快捷键唤起 AI 并输入自然语言让其修改代码。 2. 通过工作流数据库节点操作数据表: 在工作流中添加数据库节点对数据表进行操作,可通过 NL2SQL 方式和代码方式进行调用,支持完整读写模式。 参考以下操作添加并配置工作流节点: 单击页面顶部的工作流页签,然后单击创建工作流。 输入工作流名称和使用描述,然后单击确认。 在基础节点页签下,将数据库节点拖入到工作流配置画布区域。 根据相关信息配置数据库节点,包括输入添加 SQL 执行中需要的参数,输入要执行的 SQL 语句,可单击自动生成使用大模型生成 SQL。 需注意不支持 Select语法、多表 Join 操作,最多返回 100 行数据。在配置数据库节点前,要确保已经搭建了一个 Bot,并在这个 Bot 中创建好了数据表。
2025-03-26
构建知识库有什么要注意的?
构建知识库时需要注意以下几点: 1. 在使用在线检索流程生成结果时: 重排序的结果通常因大模型上下文有限制而不会都被使用,可以设置阈值进行截断,如只使用前 3 5 个文档,或只取相关性分数大于某个值的文档。 一些先进的 RAG 系统会对选中的文档进行摘要或压缩,以在有限空间内包含更多相关信息。 2. 对于后置处理,可能包括敏感内容检测和移除、格式化输出等。 3. 创建智能体的知识库时: 手动清洗数据可提高准确性,如创建画小二课程的 FAQ 知识库时,飞书在线文档中每个问题和答案以分割。 对于本地文档,不能一股脑全部放进去训练,应先放入大的章节名称内容,再按固定方式细化处理。 4. 使用 Coze 搭建知识库时: 文档的分片策略会严重影响查询结果,RAG 方案存在跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等问题。 希望以上内容对您有所帮助。
2025-03-25
如何构建知识库
构建知识库的方法主要有以下两种: 使用 flowith 构建知识库: 1. 选择“Manage Your Knowledge Base”,进入知识库管理页面。 2. 点击左上角的加号,添加新的知识库,并为其起一个易于分辨的名字。 3. 点击添加文件,建议使用 Markdown 格式的文件。 4. Flowith 会对文件逐个进行抽取等处理,无需操心具体过程,等待处理完毕。 5. 处理完毕后,可以在知识库管理页面测试检索,输入关键词过滤相关内容。 使用 Dify 构建知识库: 1. 准备数据:收集需要纳入知识库的文本数据,包括文档、表格等格式,并对数据进行清洗、分段等预处理,确保数据质量。 2. 创建数据集:在 Dify 中创建一个新的数据集,并将准备好的文档上传至该数据集,为数据集编写良好的描述。 3. 配置索引方式:Dify 提供了三种索引方式供选择,包括高质量模式、经济模式和 Q&A 分段模式,根据实际需求选择合适的索引方式。 4. 集成至应用:将创建好的数据集集成到 Dify 的对话型应用中,作为应用的上下文知识库使用,在应用设置中配置数据集的使用方式。 5. 持续优化:收集用户反馈,对知识库内容和索引方式进行持续优化和迭代,定期更新知识库,增加新的内容以保持时效性。 总的来说,Dify 提供了一个可视化的知识库管理工具,关键步骤包括数据准备、数据集创建、索引配置,以及将知识库集成到应用中并持续优化。
2025-03-20
我是新手小白,如何用最简单的方式构建多智能体
对于新手小白构建多智能体,以下是一种较为简单的方式: 1. 快速搜索补充参考信息:根据用户的任务调研市场上主流的开源搜索引擎技术架构,使用搜索工具 API WebSearchPro 补充更多信息,具体可参考。 2. 用模型规划和分解子任务:使用大模型如 GLM40520 帮助规划,把用户问题拆分成若干子搜索任务,并转换为 JSON 格式。JSON 格式处理可参考。 3. 用搜索智能体完成子任务:AI 搜索智能体具备联网搜索和自主分析并进行多轮搜索任务的能力。智能体 API 的调用方式可参考。智能体 id 为 659e54b1b8006379b4b2abd6,简介为连接全网内容,精准搜索,快速分析并总结的智能助手。 4. 总结子任务生成思维导图:智能体能调用各种插件,如思维导图、流程图、PPT 工具等,可根据工作需要选择。智能体 API 的调用方式可参考。智能体 id 为 664e0cade018d633146de0d2,简介为告别整理烦恼,任何复杂概念秒变脑图。 另外,OpenAI 官方开源的多智能体框架「Swarm」具有一定优势,其「Handoffs」处理了不同智能体之间交接的逻辑。例如构建客服多智能体,可能只需要准备普通接线客服和宽带客服两个 Agent 。 在实际操作中,如创建 Coze 智能体获取笔记和评论信息,要创建智能体并使用单 Agent 对话流模式,编排对话流,进行测试和发布等步骤。发布时要注意相关配置,如输出类型、输入类型等。
2025-03-20
ai可以和哪些领域结合,让普通的人的生活得到帮助
AI 可以与以下领域结合,为普通人的生活提供帮助: 1. 教育培训: 借助大型语言模型,人工智能生成的角色可以作为数字教师,如让牛顿亲自授课《牛顿运动定律》,让白居易为您讲述《长恨歌》背后的故事。 数字教师可以实现一对一辅导,根据学生的学习情况、兴趣和偏好提供定制化的学习计划和资源,缓解教育资源不平等的问题。 人工智能生成的虚拟角色也可以是数字陪伴,促进儿童成长。 2. 娱乐和休闲: 在影视行业,AGI 时代每个人都可以让 AI 根据自己喜好“量身定制”电影或剧集,甚至互动式地发展剧情。 在游戏领域,AGI 可以创造出高度逼真的虚拟角色,与玩家互动,使游戏世界更加生动。 在音乐、美术创作方面,AGI 能与人类艺术家协作或作为创作者助理,普通人也可以通过简短描述让 AGI 生成作品。 3. 日常生活: AGI 可以读取用户日程和邮件,自动为用户安排最优路线、预订餐厅、购买日用品等。 在购物时,AI 可以根据用户的尺寸和喜好筛选商品清单,甚至替用户做决定。 但在享受这些便利的同时,也需要警惕过度依赖带来的问题,如人类判断力和独立思考能力的退化。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
如果你是一个AI领域的专家,我有个问题关于应用AI来学习的:假设我有一个网上的课程,然后我把这个网上的课程全部视频都下载下来,然后输入给AI,让AI来学习,如果以后我问AI关于这方面的问题的话,AI能像课程老师一样思考,来回答我的问题吗
以下是关于您提问的相关内容: AI 的学习方式与人类有相似之处,也有不同之处。在医疗保健领域,为产生真正的改变,AI 应像人类一样学习。成为某个领域顶尖人才通常从多年密集信息输入开始,如正规学校教育和学徒实践,通过面对面学习获取书本外的信息。对于 AI 来说,当前学习方式及技术人员对待方式存在问题,应通过堆叠模型训练,而非仅依靠大量数据和生成模型。例如先训练生物学、化学模型,再添加特定数据点。开发具有潜在空间层次结构的堆叠 AI 模型,能反映对基本元素的理解和预测能力,可能会平行于人类教育范例发展,也可能专门发展出新型专业知识。创建特定领域的专家 AI 可能比全能 AI 更容易,且需要多个专家 AI 提供多样意见。同时,应让 AI 接触现实世界互动,避免复制危险偏见。但不能因恐惧传播人类偏见而限制探索 AI 帮助民主化人类专家知识的意愿。 然而,您所提到的将网上课程视频全部下载输入给 AI 让其学习,然后期望它像课程老师一样回答问题,目前的技术和情况还不能完全保证实现。AI 的学习和回答能力取决于其训练数据、模型结构和算法等多种因素。
2025-04-13
有哪些完整综观地阐述了2022年到2025年AIGC相关技术和在设计领域的应用发展的研究报告
以下是为您找到的一些可能符合您需求的研究报告: 1. 月狐数据联合发布的《AI 产业全景洞察报告 2025》,深入分析了全球及中国人工智能产业的发展现状、全景图谱及企业出海情况。指出全球 AI 产业保持 19.1%的年均增长率,2024 年第三季度交易数量达 1245 笔,融资规模显著提升。美国在 AI 领域融资和应用市场中占据主导地位,中国紧随其后,2024 年一季度大模型规模占全球的 36%。国内 AI 企业出海呈现增长趋势,工具类和图像处理类应用在海外市场受欢迎,但东南亚和东亚地区付费习惯尚未形成。还展示了 AI 在各行业的应用现状,包括智慧医疗、智慧教育、企业服务等,强调了 AIGC 技术在提升用户体验和推动产业发展中的关键作用。链接:https://waytoagi.feishu.cn/record/DFqRrh4kqeqaIFchKtocVwVkn2d 2. 甲子光年的《2025 具身智能行业发展研究报告:具身智能技术发展与行业应用简析》,指出具身智能作为具备物理载体的智能体,强调通过与环境的交互实现智能行为,是人工智能与机器人技术的深度融合。当前,具身智能正处于技术萌芽期,受大模型技术推动成为热点,但在数据采集、模型泛化、技术路线等方面仍面临挑战。报告分析了具身智能的发展背景、现状及应用场景,认为中国在具身智能领域已走在国际前列,具备庞大的市场需求、完善的产业集群和良好的政策支持。链接:https://waytoagi.feishu.cn/record/TERPru4Jee7Gzbcu54WcUjsXnJh 3. 智能纪要:【跨界·未来】AIGC×视觉交互工作坊 Part1:AI 应用前瞻 2025 年 3 月 11 日。涵盖了 AI 在艺术创作中的应用与探索,包括 Lora 模型训练素材、模型训练比赛、Checkpoint 模型、线上与本地工作流、学习资源推荐、AI 创作挑战、装置艺术脉络、机械装置艺术理论、国内外装置艺术区别、AIGC 艺术尝试、机械进化与装置创作等方面。
2025-03-31
问题定义: 1. 核心问题陈述:创作一份个人参赛的、以光伏业务中财务工作与AI结合进行业务赋能为主题的展示类参赛方案框架。 2. 关键上下文信息:公司举办AI创新大赛,个人参赛,主题方向为工作和AI结合限定在业务赋能,公司业务是光伏领域。 3. 问题的具体范围界定:聚焦光伏业务中财务工作与AI结合进行业务赋能的展示方案框架创作。 答案要求: 1. 内容范围: - 必须包含:整体参赛方案思路、光伏财务业务与AI结合的具体方向、展示方案大致框架。
很抱歉,您提供的知识库内容中没有与光伏业务中财务工作与 AI 结合进行业务赋能的参赛方案框架相关的信息。但以下是为您生成的一个可能的参赛方案框架示例: 一、整体参赛方案思路 本次参赛方案旨在探索如何将 AI 技术应用于光伏业务中的财务工作,以实现更高效、精准和智能化的业务赋能。通过深入分析光伏行业的特点和财务工作的需求,结合先进的 AI 技术,提出创新的解决方案,提升财务工作的效率和质量,为公司的光伏业务发展提供有力支持。 二、光伏财务业务与 AI 结合的具体方向 1. 财务预测与分析 利用机器学习算法对光伏项目的成本、收益进行预测,为投资决策提供数据支持。 分析市场趋势和政策变化对财务状况的影响,提前制定应对策略。 2. 风险评估与管理 运用大数据和人工智能技术,对光伏项目的风险进行实时监测和评估。 建立风险预警模型,及时发现潜在的财务风险。 3. 成本优化与控制 通过智能算法优化供应链管理,降低采购成本。 分析生产过程中的能耗数据,实现成本的精细化控制。 4. 财务报表自动化生成与审计 利用自然语言处理技术自动生成财务报表,提高工作效率。 运用 AI 辅助审计,提高审计的准确性和效率。 三、展示方案大致框架 1. 项目背景与目标 介绍光伏行业的发展现状和公司的业务情况。 阐述将财务工作与 AI 结合的目标和意义。 2. 技术方案与实现 详细介绍所采用的 AI 技术和算法。 展示技术方案的实现过程和关键步骤。 3. 应用案例与效果 分享实际应用案例,展示 AI 在财务工作中的具体应用场景。 分析应用效果,如成本降低、效率提升、风险控制等方面的成果。 4. 未来展望与挑战 展望 AI 在光伏财务领域的未来发展趋势。 探讨可能面临的挑战及应对策略。 5. 总结与结论 总结方案的核心内容和创新点。 强调对公司光伏业务的价值和贡献。 以上框架仅供参考,您可以根据实际情况进行进一步的细化和完善。
2025-03-28
python数据分析
以下是关于 Python 数据分析的相关内容: BORE 框架与数据分析: 自动驾驶产品经理的工作中会涉及大量数据分析,数据分析是一门独立完整的学科,包括数据清洗、预处理等。从工具和规模上,写 Excel 公式、用 Hadoop 写 Spark 算大数据等都属于数据分析;从方法上,算平均数、用机器学习方法做回归分类等也属于数据分析。 用 ChatGPT 做数据分析的工具: 1. Excel:是最熟悉和简单的工具,写公式、Excel 宏等都属于进阶用法,能满足产品的大部分需求。ChatGPT 可轻松写出可用的 Excel 宏。 2. Python:有很多强大的数据分析库,如 pandas、numpy 用于数据分析,seaborn、plotly、matplotlib 用于画图,产品日常工作学点 pandas 和绘图库就够用。一般数据分析的代码可用 Jupyter Notebook 运行,用 Anaconda 管理安装的各种包。 3. R 语言:专门用于搞统计,但 Python 通常已够用。 实践:用 Kaggle 的天气数据集绘制气温趋势折线图与月降雨天数柱状组合图: 1. 项目要求:绘制气温趋势折线图+月降雨天数柱状组合图,即双 y 轴的图形。 2. 打开数据集,分析数据:发现关键表头与数据可视化目的的关联。 3. 新建 Python 文件,开始编程:包括调用库、读取数据、数据处理、创建图表、添加标题与图例、保存并显示图形等步骤。 4. 试运行与 Debug:发现左纵坐标数据有误,重新分析数据集并修改代码,最终实现可视化目的。 关于 ChatGPT 的预设 prompt: 在特定的设置下,当发送包含 Python 代码的消息给 Python 时,它将在有状态的 Jupyter 笔记本环境中执行,有 60 秒的超时限制,'/mnt/data'驱动器可用于保存和持久化用户文件,本次会话禁用互联网访问,不能进行外部网络请求或 API 调用。
2025-04-14
数据集去哪下载
以下是一些数据集的下载途径: 对于微调 Llama3 的数据集,获取及原理可参考文档:。 鸢尾花数据集下载请点击链接:https://scikitlearn.org/stable/modules/generated/sklearn.datasets.load_iris.html 。 天气数据集下载请点击链接:https://www.kaggle.com/datasets/muthuj7/weatherdataset 。建议创建一个文件夹,将下载下来的数据集放入文件夹中。
2025-04-14
基于多维评价数据,使用大模型生成个性化的家庭教育方案的可靠性高吗?
基于多维评价数据使用大模型生成个性化的家庭教育方案具有一定的可靠性,但也存在一些限制。 一方面,大模型在教育领域展现出了强大的能力。例如,能够为教师提供源源不断的真题库和错题练习库,模仿各类考试题型有模有样。在作文批改评分方面,如 GLM 模型,具备好词好句识别评测、作文综合评价评分等功能,能够综合考虑文章的多个维度给出评价,提供个性化反馈,保证评分的一致性等。 另一方面,也存在一些挑战。对于高学段理科等复杂领域,大模型的表现可能有限。在解读学生作文中的深层次含义,如隐喻、双关等修辞技巧,以及涉及特定文化背景和历史知识的内容时,仍存在一定难度。 然而,只要提示词到位、示例清晰,大模型在生成个性化家庭教育方案方面具有很大的潜力,可以为家长和孩子提供有价值的参考和帮助。但不能完全依赖大模型,还需要结合人工的判断和调整。
2025-04-13
如何利用 AI 赋能【数据分析在企业自媒体营销中的应用综述(以抖音、小红书平台为例)】
利用 AI 赋能【数据分析在企业自媒体营销中的应用综述(以抖音、小红书平台为例)】可以参考以下方法: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据以快速识别关键信息,如受欢迎的产品、价格区间和销量等。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:利用 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,更好地展示产品特点。 6. 价格策略:依靠 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:利用 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:借助 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:采用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:使用 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:依靠 AI 预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:利用 AI 分析不同支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:借助 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:利用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。 此外,还可以参考以下具体案例: 赛博发型师:基于 AI 技术为用户提供个性化的发型设计服务,通过分析用户面部特征、个人风格和偏好,自动生成发型设计方案,用户可上传照片,系统分析后生成详细报告和效果图,报告可存档至飞书文档供专业发型师复核评估。 营销文案创作专家深度版:专为企业营销团队等设计,提供从文案框架创作到生成的一站式服务,通过分析产品信息等挖掘痛点和卖点,生成营销文案,并提供营销数据分析服务以优化策略和提高协作效率。 抖音商家客服(C 端用户)/抖音带货知识库工具(B 端商家):作为 AI 客服系统建设助手,帮助企业实现一站式 AI 客服解决方案。 在实际操作中,还可以参考以下经验: 飞书、多维表格、扣子相关应用优化及自媒体账号分析演示分享:包括直播课程相关内容,优化社区文档问题,介绍技术栈选择,强调扣子、多维表格及 AI 字段捷径结合做数据分析的优势,现场演示账号分析效果,展示同步数据的自动化流程。 高效数据分析应用搭建实操讲解:先介绍数据在多维表格执行无二次请求的优势,接着进行技术实操,从新建“数据 AI 高效数据分析”应用开始,讲解抓数据、同步数据前设置变量等步骤,包括搭建界面、做工作流、保存变量等操作,可在市场选插件。 高雁讲解数据处理及多维表格操作过程:进行操作演示与讲解,包括将用户信息发送到多维表格、调整界面显示、处理按钮点击事件等操作,还讲解了批处理、代码节点等内容。
2025-04-13
现在做数据分析比较厉害的ai是什么
目前在数据分析方面表现较为出色的 AI 工具包括智谱清言、Open Interpreter 等。 AI 在数据分析中具有以下优势: 1. 降低入门门槛:过去学习数据分析需要掌握编程语言和专业知识,现在通过 AI 工具,门槛大大降低。 2. 规范的分析流程:对于初学者来说,AI 直接做的数据分析比他们自己第一次做的更好,其规范化流程更严谨,结果更可靠。 3. 自动化处理:会自动进行模型选择以匹配数据,还能根据 log 检查错误并改正源代码。 4. 减少重复性工作:重复性劳动可先交给 AI 做,人类用户只需做验证和检查结果。 实际应用的工具方面,GPT4 可以帮助建立和评估机器学习模型,Claude 等大语言模型可以进行数据分析和可视化,Open Interpreter 等工具可以辅助编程和数据处理。 使用时的建议包括:对 AI 结果要进行严格验证,不要完全依赖 AI,要保持独立思考,对 AI 的能力边界有清晰认识,合理使用以提高工作效率。同时,AI 应被视为辅助工具而非完全替代品,人类在整个过程中仍起主导作用和具有判断力。
2025-04-11
用AI做数据分析
以下是关于用 AI 做数据分析的相关内容: 流程: 逻辑流程图如下:上面说的两种方式对应流程图的上下两个步骤,红色部分是重点。 1. SQL 分析:用户描述想分析的内容,后台连接 DB,附带表结构信息让 AI 输出 SQL 语句,校验是 SELECT 类型的 SQL,其他操作如 UPDATE/DELETE 绝不能通过!!校验通过后执行 SQL 返回结果数据。再将数据传给 GPT(附带上下文),让 AI 学习并分析数据,最后输出分析结论和建议,和结果数据一起返回给前端页面渲染图表、展示分析结论。目前已实现两张表关联查询。 2. 个性化分析:用户上传文件,如有需要可以简单描述这是什么数据、字段意义或作用辅助分析。前端解析用户上传的文件,再传给 GPT 分析数据,后续步骤与上面一致。 工具和成功案例: 大概思路是这样: 1. 提供大模型可以访问的数据源或者上传数据表格。 2. 通过提示词说清楚需要以哪些维度分析数据,分析完成的结果要以什么格式输出。 3. 观察生成结果,迭代和优化提示词,最终满意后导出结果。 相关问题和技巧: 1. 关于“大模型幻觉”,目前没有办法消除,这本身就是大模型特性。可以通过其他第三方信息源和知识来检验生成是不是在胡说八道。 2. 结构化思维提高对话能力,在 AGI 搜索结构化三个字,有相关文章。上下文 token 长度如果指的是大模型的记忆窗口的话,没法延长,是设定好的。 案例分析: 以“用 ai 做数据分析,和爆款卖点分析”为例,这一创意将 AI 技术与商业洞察深度融合,展现了数据驱动决策的前瞻性。通过 AI 对海量用户行为、评论、竞品数据的挖掘,不仅能快速定位爆款产品的共性特征(如高频关键词、用户情感倾向),还能发现传统方法难以捕捉的潜在需求(例如隐藏的消费场景或未被满足的功能痛点)。尤其是结合时序分析预测市场趋势,为企业提供了动态调整产品策略的敏捷性,真正实现了从“经验决策”到“智能决策”的跨越。若想进一步突破,可考虑以下优化方向: 1. 多模态数据融合:除文本数据外,整合图片/视频的视觉分析(如通过 CV 技术识别爆款产品的外观设计共性),或结合语音数据(如直播带货中的实时用户反馈),构建更立体的卖点模型。 2. 因果推理增强:当前 AI 多聚焦相关性分析,可引入因果发现算法(如 DoWhy 框架),区分“真实卖点”与“伴随现象”。例如某款手机壳销量高是因为颜色,还是因与热门手机型号捆绑销售? 3. 个性化适配引擎:根据企业自身资源禀赋(供应链能力、品牌定位)对 AI 建议进行权重优化。例如小型厂商可优先推荐“低改造成本的高需求卖点”,避免直接对标头部品牌的资源密集型方案。 4. 对抗性验证机制:构建虚拟消费者模拟环境,对 AI 提出的卖点进行 A/B 压力测试,提前评估市场风险,避免出现“数据过拟合导致的伪创新”。
2025-04-11