「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
文字生图片
文字生图片是通过文字描述来生成图片的一种技术。以下是一些相关信息: 在离谱村,通过 midjourney 可以实现文生图,具体操作方式暂未详细说明。 LayerStyle 副本中的 TextImage 支持从文字生成图片以及遮罩,具有多项可设置的参数,包括字间距、行间距、横排竖排调整、侧边边距、顶部边距、文字总体大小、字符随机变化范围、随机变化的种子、文字排版、画面宽度和高度、文字颜色、背景颜色等。 在《促进创新的人工智能监管方法》中提到了文字到图片生成器的相关内容,如适应性(使用大量在线内容根据简短的文字提示学习创建丰富、高度特定的图像)和自主性(基于文字输入生成模仿人类创作艺术品质的图像,无需用户持续监督),同时也提到了可能存在的如训练数据中的偏差或刻板印象导致的冒犯性语言或内容等监管影响。
2025-02-26
什么工具可以帮忙总结课程视频的知识点
以下是一些可以帮忙总结课程视频知识点的工具: 1. 剪映:只需提供文案,能够自动配图配音,帮助优化线上课程,为微课总结内容和知识点。 2. BibiGPT:支持小红书、B 站等网站视频的归纳总结,还可以提问互动,答案会附上对应的视频节点,是融合课程备课的好助手,网址为 https://bibigpt.co/ 。 3. 飞书妙记:可以先从视频网站上提取出视频的音频部分,利用其免费语音转文字功能将音频转换成文本,下载文本后上传至其他工具进行总结。 此外,可汗学院出品的 AI Tutor Khanmigo 也具有一定的辅助作用,它可以为学生总结视频内容,并以苏格拉底式教学法引导学生思考和学习。
2025-02-26
Deepseek目前已在电商行业应用落地的场景有哪些?
DeepSeek 目前已在电商行业应用落地的场景包括: 电商商品策划:如 。 商品链接分析:如 。 电商产品上架规划:如 。
2025-02-26
AI发展史
AI(人工智能)的发展历程如下: 1. 起源阶段(1943年):心理学家麦卡洛克和数学家皮特斯提出机器的神经元模型,为后续的神经网络奠定基础。 2. 1950年:计算机先驱图灵最早提出图灵测试,作为判别机器是否具备智能的标准。 3. 1956年:在美国达特茅斯学院,马文·明斯基和约翰·麦凯西等人共同发起召开达特茅斯会议,人工智能一词被正式提出,并作为一门学科确立下来。 此后近70年,AI的发展起起落落。 AI技术发展历程还包括: 1. 早期阶段(1950s 1960s):专家系统、博弈论、机器学习初步理论。 2. 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理。 3. 统计学习时期(1990s 2000s):机器学习算法如决策树、支持向量机、贝叶斯方法等。 4. 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等。 当前AI前沿技术点有: 1. 大模型:如GPT、PaLM等。 2. 多模态AI:视觉语言模型如CLIP、Stable Diffusion,以及多模态融合。 3. 自监督学习:自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习:元学习、一次学习、提示学习等。 5. 可解释AI:模型可解释性、因果推理、符号推理等。 6. 机器人学:强化学习、运动规划、人机交互等。 7. 量子AI:量子机器学习、量子神经网络等。 8. AI芯片和硬件加速。
2025-02-26
AI智能体扣子搭建
以下是关于 AI 智能体扣子搭建的相关内容: 扣子是字节跳动旗下的 AI 应用开发平台,搭建智能体的门槛较低,无论有无编程基础都能快速搭建基于 AI 模型的多样化问答 Bot。 搭建智能体的步骤如下: 1. 创建一个智能体,输入人设等信息,并放上创建的工作流。 2. 配置完成后进行测试。但注意工作流中使用的插件 api_token 不能直接发布,可将其作为工作流的输入,用户购买后输入 token 再发布。 3. 搭建时首先需要想一个智能体的名字,然后写一段详细的介绍,越详细越好,因为会根据介绍智能生成符合主题的图标,最后使用 AI 创建一个头像即可。 扣子还提供了丰富的插件、工作流、知识库等功能来增强 Bot 的能力和交互性。例如菠萝作词家智能体,是专为音乐创作设计的辅助工具,能理解分析用户输入的信息生成歌词。 扣子官网:
2025-02-26
Deepseek现在能和哪些办公软件联用了?
DeepSeek 目前可以与以下办公软件联用: 1. 飞书多维表格。 2. Coze 智能体。 3. 可通过浏览器插件调用,如使用 Chrome 或 Microsoft Edge 浏览器,安装插件(https://chromewebstore.google.com/detail/pageassist%E6%9C%AC%E5%9C%B0ai%E6%A8%A1%E5%9E%8B%E7%9A%84web/jfgfiigpkhlkbnfnbobbkinehhfdhndo ),然后进行相关配置和操作。
2025-02-26
AI学习路径
以下是为新手提供的 AI 学习路径: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 另外,如果您偏向技术研究方向,学习路径包括: 1. 数学基础:线性代数、概率论、优化理论等。 2. 机器学习基础:监督学习、无监督学习、强化学习等。 3. 深度学习:神经网络、卷积网络、递归网络、注意力机制等。 4. 自然语言处理:语言模型、文本分类、机器翻译等。 5. 计算机视觉:图像分类、目标检测、语义分割等。 6. 前沿领域:大模型、多模态 AI、自监督学习、小样本学习等。 7. 科研实践:论文阅读、模型实现、实验设计等。 如果您偏向应用方向,学习路径包括: 1. 编程基础:Python、C++等。 2. 机器学习基础:监督学习、无监督学习等。 3. 深度学习框架:TensorFlow、PyTorch 等。 4. 应用领域:自然语言处理、计算机视觉、推荐系统等。 5. 数据处理:数据采集、清洗、特征工程等。 6. 模型部署:模型优化、模型服务等。 7. 行业实践:项目实战、案例分析等。 无论是技术研究还是应用实践,数学和编程基础都是必不可少的。同时需要紧跟前沿技术发展动态,并结合实际问题进行实践锻炼。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-02-26
什么是 ai agent
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态) 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体) 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。 从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-02-26
r1-1.5b,7b,32b,70b的区别在哪
以下是关于 r11.5b、7b、32b、70b 区别的一些信息: 在模型规模方面,不同规模的模型具有不同的特点和应用场景。 从一些访谈和相关介绍来看: 小型模型(如 1.5b)在某些特定应用中可能已经足够好,并且成本相对较低,但在处理复杂任务和解锁新的有价值应用方面可能有限。 较大的模型(如 7b、70b)通常能够提供更强大的性能和能力,例如在提供良好的法律建议等任务中可能表现更出色。但大模型的成本也相对较高,并非所有应用都能证明其成本的合理性。 以 Qwen 2 为例,不同规模的模型具有不同的性能和处理能力: Qwen20.5B、Qwen21.5B 可处理 32k 上下文。 Qwen27B 可处理 128k 上下文。 像 baichuan7B 这样的 70 亿参数模型,在标准的中文和英文权威 benchmark 上均取得同尺寸最好的效果,支持中英双语,上下文窗口长度为 4096。 总之,不同规模的模型在性能、成本、适用场景等方面存在差异,需要根据具体需求来选择合适的模型。
2025-02-26
唇形同步项目
以下是关于唇形同步项目的相关信息: 腾讯发布的 MimicMotion 项目在唇形同步方面效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。其优化包括基于置信度的姿态引导机制、基于姿态置信度的区域损失放大技术以及创新的渐进式融合策略,在可接受的计算资源消耗下,实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion 节点地址:https://github.com/AIFSH/ComfyUIMimicMotion Synclabs 发布了新版唇型同步模型 Sync1.6.0,进行了唇形同步升级,能够产生平滑、准确的唇形,同时减少视频帧之间的闪烁现象,是基于给定音频条件生成视频的音视频模型。相关链接:http://synclabs.so 、https://x.com/imxiaohu/status/1771521124326834465?s=20
2025-02-26