直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
开源大模型分析
以下是一些开源大模型的分析: 1. KnowLM: 地址: 简介:旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。一期发布了基于 Llama 的抽取大模型智析,使用中英文语料对 Llama(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。 2. BayLing: 地址: 简介:由中国科学院计算技术研究所自然语言处理团队开发,是一个具有增强的跨语言对齐的通用大模型。以 Llama 为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将 Llama 的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,中文/英语均有更好表现,并提供了在线的内测版 demo 以供体验。 3. Gemma: 作者:,华中科技大学工学硕士 简介:由 Google DeepMind 和 Google 的其他团队开发,是一系列轻量级的最先进开源模型,灵感来自于 Gemini,名称反映了拉丁语中“宝石”的意思。除了模型权重,谷歌还发布了一些工具来支持开发者的创新,促进合作,并指导 Gemma 模型的负责任使用。 重点:共两个尺寸的模型权重:Gemma 2B 和 Gemma 7B。每种尺寸都提供了预训练和指令调优的版本。 模型地址: 官方页面:https://ai.google.dev/gemma/ 特点:相比 Gemini 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。包含两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。可通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。尽管体量较小,但在关键基准测试中明显超越了更大的模型,包括 Llama2 7B 和 13B,以及 Mistral 7B,能够直接在开发人员的笔记本电脑或台式电脑上运行。在 HuggingFace 的 LLM leaderboard 上,Gemma 的 2B 和 7B 模型已经双双登顶。
2024-10-28
AI搜索产品研报
以下是关于 AI 搜索产品的相关研报内容: Perplexity: 于 2022 年 12 月起步,被认为是全球市场的第一个 AI 搜索产品。 经过一年多发展,已成长为全球市场最大的 AI 搜索引擎产品,最新估值高达 30 亿美金。 产品形态: 目前主要有两类产品形态。 一类是大模型厂商或第三方推出的 ChatBot,主要交互是一个对话框 + RAG 联网检索,如 ChatGPT、Kimi Chat 等。这类产品依赖大模型的理解能力提供问答服务,RAG 检索作为补充手段,弥补大模型在实时信息获取方面的不足。 另一类是专门做 AI 搜索的产品,主要交互是一个搜索框 + 搜索详情页,如 Perplexity、秘塔等。这类产品主要侧重点在检索,优先保证检索召回的信息质量,在首次回答的准确度方面有所要求,对话(Chat)则作为补充步骤,方便用户对检索结果进行追问或二次检索。 Genspark: 其 AI 代理团队专门处理特定类型的信息和查询,确保每次搜索都能提供高效且准确的结果。 在种子轮融资中获得 6000 万美元(约合人民币 4.35 亿元),投后估值达到 2.6 亿美元(约合人民币 18.87 亿元)。体验链接:https://www.genspark.ai 搜索引擎 Top20 中的 AI 产品: |排名|产品名|分类|6 月访问量(万 Visit)|相对 5 月变化| |||||| |1|NewBing|搜索|131600|0.055| |2|Perplexity AI|搜索|8031|0.06| |3|秘塔 Metaso|搜索|1019|0.248| |4|You|搜索|954|0.162| |5|Pimeye|搜索|517|0.137| |6|360AI 搜索|搜索|486|1.132| |7|Phind|搜索|406|0.313| |8|iAsk Ai|搜索|340|0.207| |9|昆仑万维天工 AI 搜索|搜索|332|0.322| |10|Pond5 Lullab.AI|搜索|301|0.02| |11|kagi|搜索|300|0.068| |12|Consensus|搜索|281|0.166| |13|Scite_|搜索|132|0.096| |14|Algolia|搜索|101|0.056| |15|Easy With AI|搜索|92|0.258| |16|Globe|搜索|88|0.596| |17|NeevaAI|搜索|63|0.417| |18|GPTGO|搜索|59|0.045|
2024-10-28
两个人物图合成一张图片,有什么好工具?
以下是一些可以将两个人物图合成一张图片的工具和方法: 1. Midjourney(MJ): 确定人物形象,通过相关提示词生成人物图像。 利用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图在 MJ 中重新生图。 2. Stable Diffusion(SD): 可使用 Roop 插件进行多人物脸部替换。例如生成一张包含两个古风人物的图片,通过图生图调整重绘幅度,并在 Roop 插件中载入相应人物照片形象进行脸部替换,最后使用 PS 扩图。 3. 其他方法: 利用 MJ 画图制作底图,使用 InsightFaceSwap 插件处理脸部,分割裁剪图片、处理后缝合,再用相关软件让图片动起来。 直接在网上寻找能够融合两张照片的软件或项目,若没有则进行纯 P 图,然后利用图生视频的项目完成。
2024-10-28
如果视频里只需要一个背景图片,导入一个旁白语音,搭配字幕,如何ai生成视频
以下是使用 AI 生成您所需视频的步骤: 1. 生成数字人 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”,剪映会生成对应音视频并添加到当前视频轨道中,左下角会提示渲染完成,可点击预览查看效果。 2. 增加背景图片 删除先前导入的文本内容,因为音频中已包含文字。 点击左上角“媒体”菜单,“导入”本地图片,选择一张图片上传,如书架图片,点击图片右下角加号添加到视频轨道(会覆盖数字人)。 拖动轨道右侧竖线至视频最后,使其在整个视频播放时显示。 选中背景图片轨道,在显示区域拖动图片角放大到适合尺寸,如覆盖视频窗口,并将数字人拖动到合适位置。 3. 增加字幕 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 如果您是想把小说做成视频,流程如下: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-10-28
生成教育图片
以下是关于生成教育图片的相关信息: 图形认知题: 图形认知题是一种用于儿童早期教育的活动或测试,旨在帮助孩子识别、区分和理解不同图形和图案,促进视觉和认知发展。 特点包括图形识别(如圆形、正方形、三角形等基本二维图形)、颜色识别、大小和比较、排序和分类、图形与现实世界的关联、空间关系以及图形的绘制与再现。 图形认知题不仅能增强儿童视觉识别能力,还有助于在数学和逻辑推理方面打下基础。 图片生成方法: 可以先让 GPT 根据场景生成五个场景中常见的事物。 对于 DALL·E ,可使用特定的提示词,如“Painting:Mention the kind of paint,texture of canvas,and shape/texture of brushstrokes.”等,并遵循相关规则和默认设置。 对于“城市狂想”,点击开始想象按钮,粘贴提示词,等待生成图片。生成的图片一次性会有 4 张,可选择喜欢的图片进行操作,常用操作有变化、高清、重塑、扩图等。变化会生成 4 张新图片,高清分为直接和强烈两种方式,重塑有细微和强烈两种方式。
2024-10-28
AI视频
以下是关于 AI 视频的相关信息: AI 视频短片工作流: 1. 概念设定:MJ 2. 剧本+分镜:ChatGPT 3. AI 出图:MJ、SD、D3 4. AI 视频:Runway、pika、PixVerse、Morph Studio 5. 对白+旁白:11labs、睿声 6. 音效+音乐:SUNO、UDIO、AUDIOGEN 7. 视频高清化:Topaz Video 8. 字幕+剪辑:CapCut、剪映 AI 视频生成分类: 1. 若从生成方式分类: 文生视频、图生视频(Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation) 视频生视频: 逐帧生成(SD + Mov2Mov) 关键帧+补帧(SD + Ebsynth、Rerender A Video) 动态捕捉(Deep motion、Move AI、Wonder Dynamics) 视频修复(Topaz Video AI) AI Avatar+语音生成:Synthesia、HeyGen AI、DID 长视频生短视频:Opus Clip 脚本生成+视频匹配:Invideo AI 剧情生成:Showrunner AI 2. 若从产品阶段和可用维度分类:未给出具体内容。 AI 视频软件汇总: 1. Opusclip:利用长视频剪成短视频 2. Raskai:短视频素材直接翻译至多语种 3. invideoAI:输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频 4. descript:屏幕/播客录制>PPT 方式做视频 5. Veed.io:自动翻译自动字幕 6. Clipchamp:微软的 AI 版剪映 7. Typeframes:类似 invideoAI,内容呈现文本主体比重更多 8. Google vids:一口大饼 您可以根据自己的需求选择相应的工具和方法来进行 AI 视频的创作。
2024-10-28
有没有直接抓取在线视频内容关键点的的AI工具
目前有一些可以抓取在线视频内容关键点的方法和相关工具: 1. 对于将小说做成视频的情况: 可以使用 AI 工具如 ChatGPT 分析小说内容,提取关键场景、角色和情节。 利用工具如 Stable Diffusion 或 Midjourney 生成角色和场景的视觉描述。 使用 AI 图像生成工具创建角色和场景的图像。 将提取的关键点和生成的图像组合成视频脚本。 利用 AI 配音工具如 Adobe Firefly 将小说文本转换为语音,添加背景音乐和音效。 使用视频编辑软件如 Clipfly 或 VEED.IO 将图像、音频和文字合成为视频,并进行后期处理。 2. 对于总结 B 站视频: 如果视频有字幕,可以安装油猴脚本如,下载字幕。 将字幕内容复制发送给 AI 如 GPTs 进行总结。 3. 关于视频配音效的 AI 工具: 例如 Vidnoz AI,支持 23 多种语言的配音,音质高保真,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,并提供面向个人和企业的经济实惠的定价方案。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-10-28
系统学习人工智能的路径
系统学习人工智能的路径如下: 1. 加入“通往 AGI 之路”社区:这是一个致力于人工智能学习的中文知识库和社区平台,由开发者、学者和 AI 爱好者共同参与建设,提供丰富的学习资源,包括文章、教程、工具推荐以及最新的 AI 行业资讯等,还会定期组织活动,如视频挑战赛、模型创作大赛等,鼓励成员在实践中学习,促进交流与合作。 2. 从编程语言入手:可以选择 Python、JavaScript 等编程语言开始学习,掌握编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 3. 尝试使用 AI 工具和平台:例如使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。也可以探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 4. 学习 AI 基础知识:了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等,学习 AI 在教育、医疗、金融等领域的应用案例。 5. 参与 AI 相关的实践项目:参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 6. 关注 AI 发展的前沿动态:关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展,思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 总之,全面系统地学习 AI 知识和技能,可以从编程基础、工具体验、知识学习、实践项目等多个方面入手,为未来在 AI 领域的发展做好准备。
2024-10-28
ai生成视频
以下是关于 AI 生成视频的相关信息: 生成带有文本提示和图像的视频: 在 Adobe 的相关产品的 Advanced 部分,您可以使用 Seed 选项添加种子编号(https://helpx.adobe.com/firefly/generatevideo/generatevideoclips/generatevideofaq.htmlwhatisaseed),以帮助启动流程并控制 AI 创建内容的随机性。如果使用相同的种子、提示和控制设置,可以重新生成类似的视频剪辑。之后选择 Generate(生成)。 文字生成视频的 AI 产品: “文生视频”通常指使用人工智能技术将文本内容转换成视频的服务。以下是一些国内外提供此类功能的产品推荐: 1. Pika:非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要注意是收费的。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。 用 AI 把小说做成视频的流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-10-28
传统的agent是怎么定义的
传统的 agent 定义如下: 在古希腊哲学中,对“行动者”(Agent)的探讨深刻影响了后世对道德责任和个体决策的理解。尽管当时未使用现代意义的“Agent”术语,苏格拉底、柏拉图和亚里士多德等哲学家已为其奠定基础。 亚里士多德在《尼各马科伦理学》中探讨德性伦理学,认为人的善良和幸福源自由理性和智慧引导的德性生活,区分了“被动行为”与“主动行为”,强调有道德价值的行为应是个体自愿且有明确意图的选择,个体作为行动者不仅要靠理性指导行为,还要对自愿行为承担道德责任。 苏格拉底通过独特对话法促使人们自我反省,考察行为是否符合道德标准,提出“无人有意作恶”,认为错误源于无知,主张通过增长智慧和美德引导正确决策。 柏拉图在《理想国》中构建理想社会模型,探讨灵魂三部分关系,认为理性主导时个体才能做出正确选择,将知识与道德紧密相连。 虽然古希腊哲学家未直接讨论“自由意志”,但他们关于个体自主决策及对结果负责的思考,对后世关于自由意志和道德责任的讨论影响深远,亚里士多德强调人作为理性动物应依据内在理性及外在自然法则实现德性和善。 在 20 世纪 60 年代,马文·明斯基定义“Agent”为一个自主、独立运行的计算或认知实体,具备感知、决策和执行任务的能力,有自己的目标、行为和策略,能与其他 Agent 交互和协作,可视为智能系统中的功能模块,在不同层次执行不同功能,通过协作实现复杂智能行为。在其著作《心智社会》中,深入探讨了人类思维和人工智能的复杂关系。
2024-10-28