直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
way to agi 可以提供每一个ai的教程吗
WaytoAGI(通往AGI之路)是由一群热爱AI的专家和爱好者共同建设的开源AI知识库。它提供了一系列开箱即用的工具,包括文生图、文生视频、文生语音等详尽的教程。无论您是AI初学者还是行业专家,都能在这里发掘有价值的内容。 知识库涵盖的内容丰富多样,包括但不限于以下方面: 推荐了 B 站 up 主 Nally 的免费课程,每节 15 分钟。 二十四节气相关教程和关键词已开源。 会有老师带领大家用 AI 做生图、毛毡字、光影字、机甲字等。 提到人像可控的炼丹操作、AI 视频及相关变现方式。 介绍了工程生产的可控性,以及 AI 视频相关的共学课程、工具及挑战赛。 提供了不同类型的学习路径规划,如 AI 提示词、AI 绘画、AI 语音与数字人等方面的学习路径。 包含 AI 产品介绍、数据分析、研究报告与课程、AI 论文和数据等内容。 有开源内容共建,如音乐之路、AI 视频学社、微信机器人搭建、手搓“硬件”机器人、关键词学社、AI 教育之路、AI 3D 学社、AI 即兴喜剧等。 您可以通过以下链接访问:https://waytoagi.com/ ,即刻体验:https://waytoagi.com/
2024-10-20
大模型中的RAG
RAG 即 RetrievalaugmentedGeneration(检索增强技术),是大模型中的一个重要概念。 首先回顾 LLM 的原理,它是把互联网文献材料降维到 latent space 中,并通过 transformer 方式学习其中的“经验”。但固定文献资料存在局限性,可能无法回答某些问题。 RAG 的出现解决了这一问题,它允许模型到搜索引擎上搜索问题相关资料,并结合自身知识体系综合回复。其中,RAG 的“R”即搜索环节并非简单操作,还涉及传统搜索的逻辑,如对输入问题的纠错、补充、拆分,以及对搜索内容的权重逻辑等。 例如,对于“中国界世杯夺冠那年的啤酒销量如何”的问题,会先纠错为“中国世界杯夺冠那年的啤酒销量如何”,然后拆分问题进行综合搜索,将搜索到的资料提供给大模型进行总结性输出。 RAG 是一种结合检索和生成的技术,能让大模型在生成文本时利用额外数据源,提高生成质量和准确性。其基本流程为:首先,给定用户输入(如问题或话题),RAG 从数据源中检索出相关文本片段(称为上下文);然后,将用户输入和检索到的上下文拼接成完整输入传递给大模型(如 GPT),输入通常包含提示,指导模型生成期望输出(如答案或摘要);最后,从大模型输出中提取或格式化所需信息返回给用户。
2024-10-20
3.3 语音克隆工具
以下为您介绍一些语音克隆工具: CloneVoice:基于 Coqui AI TTS 模型,能够变换不同声音。支持 16 种语言,包括中英日韩法。支持在线声音克隆,录音时长为 5 20 秒。链接:https://x.com/xiaohuggg/status/1739178877153681846?s=20 OpenVoice:准确克隆参考音色,支持多种语言和口音。能灵活控制声音风格,包括情感、口音、节奏等,还具有零样本跨语言声音克隆能力。链接:http://research.myshell.ai/openvoice 、https://x.com/xiaohuggg/status/1742078704053035353?s=20
2024-10-20
关于图转视频的开放的api
以下是一些关于图转视频的开放 API 信息: 出门问问 Mobvoi 的照片数字人工作流及语音合成(TTS)API: API 官网:https://openapi.mobvoi.com/ 语音合成(TTS)API 地址:https://openapi.mobvoi.com/pages/soundlibrary 语音合成(TTS)操作文档:https://openapi.mobvoi.com/document?name=%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90%EF%BC%88TTS%EF%BC%89 使用 GPT 的视觉功能和 TTS API 处理和讲述视频: 原文作者:Kai Chen 发表于 Nov 6, 2023 Open in Github 在 Github 中打开:https://github.com/openai/openaicookbook/blob/main/examples/GPT_with_vision_for_video_understanding.ipynb 原文链接:https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding 示例包括: 使用 GPT4 获取视频的描述 使用 GPT4 和 TTS API 为视频生成画外音 详细示例链接:https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding1usinggptsvisualcapabilitiestogetadescriptionofavideo
2024-10-20
我想让AI帮我润色两句话,让其符合科研论文的用语习惯,并且有逻辑,可以适当改变语序、及表达方式,也允许添加或删除部分内容,该怎么下指令
以下是关于让 AI 润色两句话使其符合科研论文用语习惯且有逻辑的指令建议: 首先,明确您要润色的两句话的具体内容,并清晰地向 AI 描述您的需求。例如:“请将以下两句话按照科研论文的用语习惯进行润色,使其逻辑清晰、表达准确。句子 1:。” 在指令中,可以强调一些具体的要求,比如:“适当调整语序和表达方式,在不改变原意的基础上,优化句子结构,使其更具学术性和专业性。” 同时,您还可以补充一些相关的背景信息或特定的学科领域,以便 AI 更好地理解您的需求并进行更精准的润色。 常见的适合文章润色的 AI 工具包括: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体的 AI 写作助手,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于学生和写作人员的多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,可以帮助用户优化文章的语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可以根据输入生成符合要求的学术论文。 总的来说,这些 AI 工具涵盖了文章润色的各个环节,包括校对、改写、大纲生成、内容生成等,可以有效提高写作效率和质量。科研人员和学生可以根据自身需求选择合适的工具进行使用。
2024-10-20
有哪些声音克隆的工具
以下是一些声音克隆的工具: :一个带 Web 界面简单易用的声音克隆工具。可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。 :一个开源的音频、音乐和语音生成整合工具包。 ElevenLabs 推出的全自动化工具:可上传视频或粘贴视频链接,全自动在几十秒到几分钟内将视频翻译成 29 种语言,并能克隆原视频里面的声音来配音。 豆包的音色模仿:读大概 20 个字的句子,5 秒就可以生成非常像的音色,之后可用自己的声音读生成的文字内容。 剪映:新推出了声音克隆功能,效果不错。 开源的数字人组合方案中:第一步先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。第二步使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。产品为 https://synclabs.so/
2024-10-20
我想做一个关于AI工具在教育中的应用的视频,能给点建议吗?用那个工具较好介绍
以下是关于制作 AI 工具在教育中应用的视频的一些建议: 1. 可以参考拜登签署的 AI 行政命令中有关塑造 AI 在教育方面潜力的内容,例如创建资源以支持教育工作者部署支持 AI 的教育工具,如学校中的个性化辅导。 2. 从“教育:云朵老师们一起交流 AI 2024 年 3 月 19 日”的相关内容中获取灵感,如会议讨论的人工智能技术在教学中的各种应用,包括大语言模型、绘画模型、博物学家等的应用和实践。 3. 关注使用 AI 工具时的一些要点,如与大语言模型和图像模型交互时设定角色、表述清晰、调整框架,注意上下文长度、产生幻觉等问题,可选择国产工具。 4. 了解与 AI 对话的多种方式,如让 AI 扮演角色、仿写、成为小助理、激发好奇心等。 5. 探索利用人工智能工具进行创意和创作的方法,例如使用提示词生成图片、视频、音乐,使用自然语言描述生成剧本和分镜等。 至于具体的工具选择,国产工具可以考虑,但需要根据您的具体需求和使用场景进一步确定。
2024-10-20
请问在哪里可以学习关于教育方面的ai的应用
以下是一些可以学习关于教育方面的 AI 应用的途径: 您可以参考,其中提到了 AI 在教育科技中的早期应用。 阅读,了解人工智能用于教学以及帮助教师的相关内容。 还可以查看,其中涵盖了自适应学习、智慧课程、AI 助教等方面的内容。 同时,您在使用人工智能获取信息时,因为其可能会产生幻觉,所以要根据其他来源仔细检查关键数据。
2024-10-20
使用文字给视频配音的工具有哪些?
以下是一些使用文字给视频配音的工具: 1. Vidnoz AI:支持 23 多种语言的配音,音质高保真,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,提供面向个人和企业的经济实惠的定价方案。 2. Wavel Studio:支持 30 多种语言的配音,音质自然流畅,自动去除背景噪音和杂音,提供添加字幕和文本叠加层的工具,界面友好,提供多种自定义选项。 3. Elai.io:支持 65 多种语言的配音,音色和语调真实,自动将唇形与语音同步,生成字幕,提高视频的可访问性,支持多位配音者,适合复杂对话场景。 4. Rask AI:支持 130 多种语言的配音,包括稀有和濒危语言,采用先进语音合成技术,音质高保真,提供语音参数自定义和音效添加工具,与多种视频编辑平台和工作流程整合。 5. Notta:提供快速实惠的多语言配音解决方案,保留原声说话风格和细微差别,提供调整语音速度和音调的工具,支持批量处理,高效完成多视频配音。 6. Dubverse:支持 60 多种语言的配音,音质接近真人,提供文本转语音和语音克隆功能,提供语音参数自定义和情感添加工具,与多种视频平台和社交媒体渠道整合。 在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。希望以上信息对您有所帮助。如果您还有其他问题,请随时提出。
2024-10-20
文本生成PPT
以下是关于文本生成 PPT 的相关信息: 闪击: 网址:国内网站,不需要魔法。地址:https://ppt.isheji.com/?code=ysslhaqllp&as=invite 选择模版 输入大纲和要点:由于闪击的语法和准备的大纲内容有一些偏差,可以参考官方使用指南:https://zhuanlan.zhihu.com/p/607583650,将之前准备的大纲转换成适配闪击的语法。 生成 PPT:点击文本转 PPT,并且在提示框中选择确定。 在线编辑 导出:有一些限制,PPT 需要会员才能导出。 市面上大多数 AI 生成 PPT 的思路: AI 生成 PPT 大纲 手动优化大纲 导入工具生成 PPT 优化整体结构 相关推荐和扩展阅读: 推荐 2 篇市场分析的文章供参考: 《》 《》 增强版 Bot: 可以实现图片理解与生成,在对话框输入诉求,测试效果:生成常见的系统架构风格架构设计图,给出一张图片即可,也可以根据图片提取里面的关键知识内容。 PPT 一键生成:根据上下文,在对话框输入诉求,测试效果:帮我生成一篇包含以上架构风格的完整 PPT,会生成幻灯片内容以及相关模板选择。 PDF 智能制作:根据上下文,在对话框输入诉求,测试效果:根据上面的架构风格,制作一篇常见系统架构风格的 PDF 文件,会生成相应的一些可选模板。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-20