与知识库对话 - WayToAGI

直达「通往AGI之路」飞书知识库 →

首页/全部问答

推荐能生成静态网页的AI

以下是为您推荐的能生成静态网页的 AI 工具： 1. 即时设计：https://js.design/ 这是一款可在线使用的「专业 UI 设计工具」，为设计师提供更加本土化的功能和服务，相较于其他传统设计工具，更注重云端文件管理、团队协作，并将设计工具与更多平台整合，一站搞定全流程工作。 2. V0.dev：https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix：https://wix.com/ Wix 是一款用户友好的 AI 工具，可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站，提供广泛的模板和设计供您选择，以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app，能帮助不同领域的用户创建所有种类的网站。 4. Dora：https://www.dora.run/ 使用 Dora AI，可以通过一个 prompt，借助 AI 3D 动画，生成强大网站。支持文字转网站，生成式 3D 互动，高级 AI 动画。 5. Genspark：https://www.genspark.ai/s 主要特点是可以根据用户的搜索内容快速生成对应的内容页面。Genspark 是一个 AI 智能体引擎，能够基于用户的查询实时生成自定义页面，称为 Sparkpages。 6. Galileo AI：https://xiaohu.ai/c/ai23cc23/galileoaiuihtmlfigma 可根据文字或图片生成完整 UI 设计，并导出 HTML 和 Figma 文件。 7. UIGENT1：基于 Qwen2.5Coder7B 微调，能根据提示生成标准 HTML/CSS 代码，擅长基础前端页面，如仪表盘、登录页、注册表单等。详细介绍：https://xiaohu.ai/c/a066c4/uigent1ui 模型下载：https://huggingface.co/smirki/UIGENT1Qwen7b 。内容由 AI 大模型生成，请仔细甄别。

企业内自主搭建RAG应该怎么做？

企业内自主搭建 RAG 可以参考以下步骤： 1. 导入依赖库：加载所需的库和模块，如 feedparse 用于解析 RSS 订阅源，ollama 用于在 python 程序中跑大模型，使用前需确保 ollama 服务已开启并下载好模型。 2. 从订阅源获取内容：通过特定函数从指定的 RSS 订阅 url 提取内容，若需接收多个 url 可稍作改动。然后用专门的文本拆分器将长文本拆分成较小的块，并附带相关元数据，如标题、发布日期和链接，最终合并成列表返回，用于后续处理或提取。 3. 为文档内容生成向量：使用文本向量模型 bgem3，从 hf 下载好模型后放置在指定路径，通过函数利用 FAISS 创建高效的向量存储。同时，企业在构建有效的 RAG 系统时，需要考虑以下因素： 1. 数据安全性：若有需求，需私有化部署，并考虑硬件成本。 2. 数据集的复杂度和数量级：复杂数据集会带来高昂的文档清洗、解析和分割成本，大数据量级会带来存储成本上升。 3. 回答质量的要求：对回答质量要求越高，需要越复杂的检索算法以及更强大的 LLM，会带来算力成本。 4. 数据的更新频率：频繁的数据更新可能需要高昂的维护成本。此外，还需了解 RAG 的相关概念和优势： 1. 大语言模型存在输出结果不可预测、知识有截止日期、无法满足实际业务需求等问题，如知识局限性、幻觉问题、数据安全性等，而 RAG 是解决这些问题的有效方案。 2. RAG 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息，更好地控制生成的文本输出，用户也能深入了解 LLM 生成最终结果的过程。 3. RAG 可与微调结合使用，RAG 类似于为模型提供教科书，适用于特定的询问或信息检索任务，微调则适用于模型需要复制特定结构、样式或格式的情况。

有没有能对上传的音乐进行点评的AI

目前有一些 AI 工具可以对上传的音乐进行一定的处理和分析。例如，在某些音乐处理软件中，上传参考音轨后，AI 会参考音频特征进行处理，但需要注意的是，AI 并不能将您的音轨处理到目标音轨的完全相同的音质，缺失的声音细节也难以通过母带处理还原。此外，有相关的研究和实践，如“我实现了一个人工智能音乐评论家”。同时，Suno 和 Udio 推出了上传音频文件生成音乐的功能，能实现对速度、旋律、配器、合成等方面的控制和处理。

GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和优势： 1. 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。 3. 跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。 4. 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。 6. 预训练模型：项目提供了一些已经训练好的模型，您可以直接下载使用。其使用步骤如下： 1. 开源：数字人组合方案第一步：先剪出音频，使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits（GPTSoVITS 实现声音克隆 https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg）克隆声音，做出文案的音频。第二步：使用 wav2lip 整合包，导入视频和音频，对口型得到视频。基础 wav2lip+高清修复整合包下载地址 https://github.com/Rudrabha/Wav2Lip 。 2. GPTSoVITS实现 AIyoyo 声音克隆二、前置数据获取处理选择音频，开启切割。有噪音时，进行降噪处理。降噪处理完成，开启离线 ASR。三、GPTSowitsTTS 训练集格式化：开启一键三连，耐心等待即可。微调训练：开启 SoVITS 训练和 GPT 训练。推理：开始推理刷新模型选择微调后的模型 yoyo。成功：出现新的 URL，说明您自己的声音微调完毕，然后可以进行使用。四、声音复刻：开启声音复刻之旅，可实现跨多语种语言的声音。相关资源： GitHub：https://github.com/RVCBoss/GPTSoVITS 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/ 产品：https://synclabs.so/ 实践的样本： AIyoyo 普通话满江红 AIyoyo 粤语版满江红

有没有简单输入故事，就生成结合图片、剧情解说的动画的AI工具

以下为您介绍一些能够简单输入故事，就生成结合图片、剧情解说的动画的 AI 工具： Anifusion：网址：https://anifusion.ai/ Twitter 账号：https://x.com/anifusion_ai 主要功能： AI 文本生成漫画：输入描述性提示，AI 会生成相应漫画页面或图像。直观的布局工具：提供预设模板，也可自定义漫画布局。强大的画布编辑器：可在浏览器中直接优化和完善生成的艺术作品。多种 AI 模型支持：高级用户可访问多种 LoRA 模型实现不同艺术风格和效果。商业使用权：用户对创作作品拥有完整商业使用权。使用案例：独立漫画创作：让无绘画技能的漫画艺术家实现故事创作。快速原型设计：帮助专业艺术家快速可视化故事概念和布局。教育内容：为教师和教育工作者创建视觉内容。营销材料：企业可制作促销漫画或分镜脚本。粉丝艺术和同人志：粉丝可创作衍生作品。优点：非艺术家也能轻松创作漫画，基于浏览器无需安装额外软件，具备快速迭代和原型设计能力，拥有创作的全部商业权利。此外，ChatGPT 也能在一定程度上参与生成对话内容和剧情。例如，通过 System Prompt 介绍游戏故事背景和小机器人人设，结合游戏关键事件生成故事情节介绍，并以小机器人自述形式呈现。在实际实现过程中，可选择离线生成一次性剧情文案保存到游戏中，但文案固定略显单调；也可实时生成，但每次生成有延迟，可能导致游戏停顿感。因此，可在每局对局开始前为游戏关键节点一次性生成所有文案，既保证每次游戏文案不同，又避免游戏停顿。剧情故事格式由预定义的 json 表达，ChatGPT 只需替换填充内容。实时对话与剧情类似，但需解决小机器人区分聊天和执行指令的问题，挑战在于 ChatGPT 支持生成“多模态”返回信息。

企业落地都有哪些工具或者方案

企业落地 AI 可以考虑以下工具和方案：火山引擎：豆包大模型的 tokens 调用量增长迅速，其视觉理解模型具备强大的视觉识别与推理能力，能处理复杂视觉任务，满足多行业需求。其 AI 应用开发平台“扣子”发布 1.5 版本，新增支持 GUI 界面的开发环境，增强多模态能力，结合智能语音 OpenAPI 和实时语音通话能力。还发布了专为企业定制的 AI 应用开发平台“HiAgent”，通过 100+行业模板支持，帮助企业快速构建 AI 能力中心，并与现有系统深度集成。百度文心大模型：在智能终端行业，超半数手机厂商使用，包括三星、荣耀等主流品牌；十余家车企已接入。百度表现突出，拿下关键中标项目数量和金额两项第一，其智能云增长由多行业需求带动。 Dify：开源的大模型应用开发平台，结合后端即服务和 LLMOps 理念，提供直观界面构建和部署生产级别生成式 AI 应用，具备强大工作流构建工具、广泛模型集成、提示词 IDE、RAG Pipeline 等，允许定义 Agent 智能体，可监控和优化性能，提供云服务和本地部署选项，个人研究可单独使用，企业级落地项目推荐多种框架结合。

如何写提示词

写提示词（prompt）是一个关键步骤，决定了 AI 模型如何理解并生成文本。以下是一些编写提示词的要点和方法： 1. 明确任务：清晰定义任务，如写故事时包含背景、角色和主要情节。 2. 提供上下文：若任务需特定背景知识，提供足够信息。 3. 使用清晰语言：用简单、清晰的语言描述，避免模糊或歧义词汇。 4. 给出具体要求：如有特定格式或风格要求，在提示词中明确指出。 5. 使用示例：提供期望结果的示例，帮助 AI 模型理解需求。 6. 保持简洁：简洁明了，避免过多信息导致模型困惑。 7. 使用关键词和标签：有助于模型理解任务主题和类型。 8. 测试和调整：生成文本后检查结果，根据需要调整提示词，可能需多次迭代。对于不同的场景，如星流一站式 AI 设计工具中的提示词： 1. 输入语言：通用大模型与基础模型 F.1、基础模型 XL 使用自然语言（如一个长头发的金发女孩），基础模型 1.5 使用单个词组（如女孩、金发、长头发），支持中英文输入。 2. 提示词优化：启用优化后可扩展提示词，更生动描述画面。 3. 写好提示词：内容准确，包含人物主体、风格、场景特点、环境光照、画面构图、画质等；调整负面提示词，帮助 AI 理解不想生成的内容；利用“加权重”功能，让 AI 明白重点内容；还可使用辅助功能，如翻译、删除所有提示词、会员加速等。在【SD】文生图中写提示词：通常描述逻辑包括人物及主体特征（服饰、发型发色、五官、表情、动作），场景特征（室内室外、大场景、小细节），环境光照（白天黑夜、特定时段、光、天空），画幅视角（距离、人物比例、观察视角、镜头类型），画质（高画质、高分辨率），画风（插画、二次元、写实）。新手可借助功能型辅助网站，如 http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ ，或去 C 站（https://civitai.com/）抄作业，但要注意图像作者使用的大模型和 LORA。

LM Studio 是一种本地应用程序，可用于在个人电脑上运行和部署较小的开源模型。例如，对于 DeepSeek、Llama 等开源模型，除了可以使用 Together AI 等推理服务提供商在线体验和调用，还能通过 LM Studio 进行本地操作。

快速记录语音并转换文字用哪个AI

以下是一些可用于快速记录语音并转换文字的 AI 工具： 1. 海螺 AI 声音克隆：不仅能进行声音克隆，还能嵌入完整的 AI 录视频工作流。具体步骤包括录制初始视频、音频提取（可用剪映或格式工厂将 mp4 转为 mp3）、语音转文字（可上传至通义听悟或飞书妙记）。但可能会遇到语音识别不准的问题，此时可使用 Gemini 2.0 Pro 等工具进行优化校正，校正时需提供足够上下文，如视频初稿、最终文章、工作流操作文档、转录文本等。 2. GET 笔记：语音转文字功能适合快速构思和记录灵感，能自动润色，去掉口癖和冗余部分。 3. 通义听悟：适合处理较长的会议录音等文字内容。它能通过 TTS 技术将音视频中的语音转换成文字，还能识别不同发言人。使用时可登录官网 https://tingwu.aliyun.com/，根据实际情况选择实时记录或上传音视频，并选择录音背景信息，如单人、双人还是多人，以及语言种类等。完成转录后会显示 AI 总结的关键词和全文摘要。

deepseek本地部署

以下是关于 DeepSeek 本地部署的相关信息：「AI 实训营」第三期课程中，02 月 26 日 20:00 的课程涉及人工智能平台 PAI 篇，包括 DeepSeek R1 技术原理、解锁 DeepSeek 的不同玩法（如问答助手、蒸馏、微调），以及实战演练 DeepSeek R1 满血版快速部署和蒸馏训练，相关课程文档为。 02 月 26 日的智能纪要中提到，关于本地部署的介绍包括如果拥有云服务器如何进行本地部署，以及满血版本地部署的实际情况。同时提到在 freely.aliyun.com 可领取 500 元免费额度，但有使用限制，不能部署满血版和较大的增流模型，还介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。