Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何借助AI赚钱

Answer

学习了 AI 有可能赚钱,但不能保证每个人都能成功。在人工智能领域,像数据科学家、机器学习工程师等岗位有高薪机会,掌握 AI 技术可在此就业获得不错收入,且 AI 在金融、医疗、制造业等行业均有应用,能增加就业和职业发展可能。然而,能否赚钱取决于多种因素,如个人学习能力、实际应用能力、对市场和商业的理解等,仅学会基础知识可能难以在竞争中脱颖而出,需持续学习和实践。

另外,关于 GPTs/GLMs 能否赚钱,答案是能,但大多数人不能。具体原因会在后续文章中给出。以一个 AI 产品经理的角色复盘 2023 年的所见所闻所感来聊 AI 赚钱(应用落地)这件事,先看一组数据,作为目前最大的第三方 GPTs 商店,BeBeGPTs 收录了 10W+的 GPTs 数据(官方 300W+)。

Content generated by AI large model, please carefully verify (powered by aily)

References

十七问解读生成式人工智能

学了AI有可能赚钱,但不一定保证每个人都能赚到钱。人工智能领域确实有很多高薪工作,比如数据科学家、机器学习工程师等。学会了AI技术,可以在这些岗位上找到工作,获得不错的收入。此外,AI技术在各行各业都有应用,比如金融、医疗、制造业等,掌握AI技能可以增加就业机会和职业发展的可能性。然而,是否能赚钱还取决于很多因素,比如个人的学习能力、实际应用能力、对市场和商业的理解等等。仅仅学会一些基础知识可能还不足以在竞争激烈的市场中脱颖而出,需要持续学习和实践。

从GPTs/GLMs如何赚钱谈起:AI应用的曙光在哪?

恭喜智谱!不管GPTs还是GLMs的上线,民间讨论最多的莫过于“能不能赚钱?”“怎麽赚钱”。所以GPTs/GLMs到底能不能帮我们(创作者)赚到钱?我的答案可能会让大多数人失望:能,但大多数人不能。为什么不能?答案我会在下面的文章中慢慢给出。今天这篇文章,不聊高大上的东西,也不聊深奥的技术,从最俗气的角度“钱”出发,以一个AI产品经理的角色复盘2023年的所见所闻所感来聊聊AI赚钱(应用落地)这件事情。先来看一组数据,作为目前最大的第三方GPTs商店,BeBeGPTs收录了10W+的GPTs数据(官方300W+)。我们来简单拉一下数据。这一组数据是从bebegpts已经整理过的数据库里直接拉出来的,那些没有整理的数据不在其中。数据按照GPTs的实际对话次数做了一个分组排序,即使我们没办法收录到所有的GPTs,在收集数据的过程中也会存在少量错误数据,但结果其实还是很明显的。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

1.OpenAI is doomed?- Et tu,Microsoft?- by Semi Analysis2.Why Geoffrey Hinton is worried about the future of AI - by University of Toronto3.ChatGPT is everywhere.Here’s where it came from - by Will Douglas Heaven4.An insightful conversation with Geoff Hinton about AI and catastrophic risks - by Andrew Ng5.New Theory Suggests Chatbots Can Understand Text - by Anil Ananthaswamy6.The Unpredictable Abilities Emerging From Large AI Models - Stephen Ornes7.ChatGPT Is a Blurry JPEG of the Web - By Ted Chiang8.The Mastermind Behind GPT-4 and the Future of AI | Ilya Sutskever - by Craig Smith9.Generative AI’s Act Two - BY SONYA HUANG,PAT GRADY,AND GPT-410.Emerging Architectures for LLM Applications - by Matt Bornstein & Rajko Radovanovic11.Mustafa Suleyman:My new Turing test would see if AI can make $1 million - By Mustafa Suleyman12.The AI Workforce is Here:The Rise of a New Labor Market - by Pete Flint & Anna Piñol13.DREAM-LOGIC,THE INTERNET AND ARTIFICIAL THOUGHT - By David Gelernter14.Tech is Going to Get Much Bigger - by Packy McCormick15.Intelligence Superabundance - by Packy McCormick16.Energy Superabundance:How Cheap,Abundant Energy Will Shape Our Future - by Austin Vernon & Eli Dourado17.Mark Zuckerberg - Llama 3,Open Sourcing $10b Models,& Caesar Augustus - by DWARKESH PATEL18.Google Gemini Eats The World – Gemini Smashes GPT-4 By 5X,The GPU-Poors - by Semi Analysis19.Acquired interview with NVIDIA CEO Jensen Huang - by Acquired20.The next grand challenge for AI - by Jim Fang

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
怎么用大模型赚钱
以下是关于如何用大模型赚钱的一些分析和建议: 1. 面向各国政府做基础大模型本土化预训练:很多 Global 的量化基金在中国会水土不服,大模型也存在类似情况。OpenAI、Google、Meta 的模型在中文能力和对中国国情的优化上存在不足,不符合政策要求。这给了国内大模型公司做本土化预训练的机会,只要做到国内领先,即使和世界领先的模型有代际差,也能有市场。 2. 关注行业应用:大模型在企业中的落地应用是关键。目前大模型是典型的赢家通吃领域,巨头在资金、技术和数据方面有优势。但大模型企业需要将技术与更多场景结合,打造落地应用。例如,Gartner 预测到 2028 年至少有 15%的日常工作决策将由代理型 AI 自主做出。 3. 竞争格局与成绩:国内大模型行业已形成以百度、阿里、字节等科技大厂和创业“AI 六小虎”为主要玩家的竞争格局。2024 年是国内大模型落地元年,中标项目数量和金额大幅增长。如百度在中标数量和金额上排名领先,在金融等细分行业也表现出色。 需要注意的是,大模型领域竞争激烈,只有极少数公司能成功,且需要将大模型商业化,否则企业可能在赛道比拼中失败。同时,大模型的发展与国家政策密切相关,需要受到有效监管才能健康发展。
2025-03-25
普通人通过ai赚钱
以下是一些普通人通过 AI 赚钱的方式: 1. 电商:婴儿的四维彩超 AI 预测 思路和玩法:通过 AI 工具将宝宝的四维彩超还原出现实模样进行变现。孕妇妈妈在孕期 22 26 周会进行四维彩超检查,很多准爸爸妈妈期待宝宝的模样,从而衍生出市场需求。在小红书、抖音等公域平台发布相关笔记吸引咨询,将客户引流到私域接单变现。 操作流程:客户提供四维彩超图原图,在 Midjourney 里进行垫图和特定描述词,整个流程不超过 10 分钟就能出图。 变现方式:受众群体多为宝妈,变现方式多样,单价不低。但在平台引流要注意隐蔽,避免被平台检测限流或封号。 2. AI 产业中的机会 基础设施层:布局投入确定性强,但涉及海量资金投入,入行资源门槛高,普通人若无强资源应谨慎入局,可考虑“合作生态”的切入机会。 技术层:技术迭代速度快,小规模团队或个人须慎重考虑技术迭代风险,基础通用大模型非巨无霸公司不建议考虑。 应用层:是广阔蓝海,当前针对行业/细分领域的成熟应用产品不多,“杀手级”应用更是稀少,普通个体和小团队强烈推荐重点布局,拥有超级机会和巨大发展空间。 3. 内容创作 像作者本人是 AI 的受益者,AI 是生产力工具,能降本增效,但仍需投入大量时间和精力,起到辅助作用。 同时存在 AI 的受害者,他们的技能失效,AI 未创造足够新的生存空间。 作者作为坚定的 AGI believer,期望 AI 能做出重大科学发现、治愈疾病、消除饥饿和肥胖、给每人发钱,让人类自由从事想做的事。
2025-03-23
如何靠AL赚钱
以下是一些靠 AI 赚钱的方法和要点: 1. 明确盈利方式:您需要清楚如何通过产品或服务赚钱,即让人们为您的产品/服务支付的钱超过提供该产品/服务的成本,同时不能忘记考虑自身成本。 2. 免费产品策略:如果您的产品是免费的,不要试图通过购买用户来增长,而是要做出让人们愿意与朋友分享的东西,因为靠广告变现对于此类产品来说通常很困难。 3. 付费产品策略: 对于客户生命周期价值(LTV)小于 500 美元的付费产品,通常负担不起销售费用,可尝试使用如 SEO/SEM、广告、邮件等不同的用户获取方法,并争取在 3 个月内偿还客户获取成本(CAC)。 对于 LTV 超过 500 美元的付费产品,通常能负担得起直接销售费用,可先自己销售产品以了解有效方法,《Hacking Sales》是一本有用的参考书籍。 4. 尽快实现“泡面盈利”:即赚足够的钱,让您可以靠吃泡面维持生计,这样能掌握自己的命运,不受投资者和金融市场的任意摆布。 5. 关注现金流:密切关注您的现金流,避免在未意识到的情况下把钱用光。
2025-03-21
AI怎么赚钱
以下是关于 AI 赚钱的一些信息: 首先,对于 GPTs/GLMs 能否赚钱的问题,答案是能,但大多数人不能。从一个 AI 产品经理的角色复盘 2023 年的所见所闻所感来聊,虽然目前最大的第三方 GPTs 商店 BeBeGPTs 收录了大量数据,但结果显示赚钱并非易事。 其次,关于如何靠 GPTs/GLMs 赚钱,OpenAI 刚推出 GPTs 时,有人将其比作苹果时代的 AppStore。产品的核心竞争力和护城河不在于 Prompt,而在于数据和服务(定制化 Tools)。例如,WebPilot 的作者通过自己开发的搜索接口提供搜索服务接入 GPTs,小红书写作专家的作者通过收集大量小红书数据和规则包装成 GPTs。也许能赚到红利的钱,但这不是长久赚钱的方法。 另外,AI 收费按 Token 计费,Token 相关问题包括:Token 是双向收费的,汉字、阿拉伯语等不同语言的计费方式,Token 在企业信息化过程中的意义等。在企业环境中,了解 Token 有助于更好理解 AI 在企业中的落地,它类似于积木,通过搭建来完成应用从而提高效率。
2025-03-16
ai赚钱项目
以下为一些关于 AI 赚钱项目的信息: 1. 在杭州站的活动中,参与者们分成 6 个小组进行 AI 赚钱快闪活动,在短时间内产出 AI 体验产品并定价,如“五行和合的 AI 头像”、“AI 随心签”、“AI 祈福壁纸”等,其中“AI 祈福壁纸”项目得到场地老板立刻买单。 2. 对于 GPTs/GLMs 能否赚钱的问题,答案是能,但大多数人不能。文章将从“钱”的角度,以 AI 产品经理的角色复盘 2023 年的所见所闻所感来探讨 AI 赚钱(应用落地)这件事。 3. 刘小排非程序员出身,用 AI 打造多款赚钱产品,强调“洞察需求”与产品验证是核心竞争力,并分享了低成本创业方法。
2025-03-15
我想通过学习ai的技能赚钱,是长久主义者
以下是为您提供的关于通过学习 AI 技能赚钱的相关信息: 首先,阳萌认为在 AI 学习中,最后还是走仿生的方法,即有一个足够长的 Context。这引发了关于记忆保存位置的探讨,比如手机适合收集信号产生本地 Context,阳萌赞成将训练好的模型部署在端侧,记录知识和记忆的 Context 不能跑到云端。同时,要抛开表面事实,回归基础原理,找到突破关键,追求长期全局最优解,相信长期主义,持续学习,自我觉察和自我进化,因为世界是参差的,唯有持续学习能抵御未来的变化。相关视频链接: 另外,关于如何靠 GPTs/GLMs 赚钱,OpenAI 推出 GPTs 时,有人将其比作苹果时代的 AppStore。产品的核心竞争力和护城河不在于 Prompt,而在于数据和服务(定制化 Tools)。传统 SaaS 的能力会被碎片化并整合到各种 GPTs 里,OpenAI 成为流量入口。例如,WebPilot 通过开发搜索接口提供服务接入 GPTs,小红书写作专家通过收集数据和规则包装成 GPTs。靠红利赚钱不是长久之计。
2025-03-12
如何借助AI帮助自己通过职称考试
很抱歉,目前知识库中没有关于如何借助 AI 帮助自己通过职称考试的相关内容。但一般来说,您可以考虑以下几种方式利用 AI 来辅助备考: 1. 使用智能学习工具,如具有个性化学习计划制定功能的 APP,根据您的知识水平和考试要求为您生成专属的学习路径。 2. 借助语言模型类的 AI 工具,如 ChatGPT 等,向其咨询考试重点、难点,获取学习建议和解题思路。 3. 利用 AI 智能题库,进行有针对性的刷题练习,通过智能分析您的答题情况,找出薄弱环节进行强化。 4. 运用 AI 辅助的笔记整理工具,帮助您更高效地梳理知识点,形成系统的知识体系。 希望以上建议对您有所帮助。
2025-04-08
1、Puzzle 选择一个你(们)感兴趣的社会问题或者现象。 “赛博信仰”指在网络环境下衍生的一系列超现实、寄托心理期许的新兴文化现象。这种现象反映了人们在数字化时代中对精神寄托、心理安慰和未来预测的需求。赛博信仰不仅是一种文化现象,也反映了现代社会中人们对科技、信仰和现实之间关系的重新思考。 2、Facts 关于这个问题/现象,都有哪些基本事实? 比如有人购买电子形式的马克思、爱因斯坦的脑子,象征着对智慧的渴望;借助塔罗测试程序、deepseek算命等AI工具,尝试预知命运;夸赞鹿童、转发锦鲤
关于“赛博信仰”这一现象,目前所了解到的基本事实包括:有人购买电子形式的马克思、爱因斯坦的脑子以象征对智慧的渴望;借助塔罗测试程序、deepseek 算命等 AI 工具尝试预知命运;夸赞鹿童、转发锦鲤等。但目前掌握的相关事实相对有限,还需要进一步的研究和观察来更全面地了解这一现象。
2025-03-13
我想借助ai学习法语,我应该如何进行?
以下是借助 AI 学习法语的一些方法和推荐的工具: 1. 语言学习平台: FluentU:使用真实世界的视频,通过 AI 生成个性化的词汇和听力练习。选择学习语言,观看视频并完成相关练习,积累词汇和提升听力理解能力。 Memrise:结合 AI 技术,根据学习者的记忆曲线提供复习和练习,增强记忆效果。选择学习语言,使用应用提供的词汇卡和练习进行学习。 2. 发音和语法检查: Speechling:提供口语练习和发音反馈,帮助学习者改进口音和发音准确性。录制语音,提交给 AI 系统或人类教练,获取反馈和改进建议。 Grammarly:可以帮助提高写作的语法和词汇准确性,支持多种语言。将写作内容粘贴到 Grammarly 编辑器中,获取语法和词汇改进建议。 3. 实时翻译和词典工具: Google Translate:提供实时翻译、语音输入和图像翻译功能,适合快速查找和学习新词汇。输入或语音输入需要翻译的内容,查看翻译结果和示例句子。 Reverso Context:提供单词和短语的翻译及上下文例句,帮助理解和学习用法。输入单词或短语,查看翻译和例句,学习实际使用场景。 4. 语言学习应用: Duolingo:使用 AI 来个性化学习体验,根据进度和错误调整练习内容。通过游戏化的方式提供词汇、语法、听力和口语练习。下载应用,选择要学习的语言,并按照课程指引进行学习。 Babbel:结合 AI 技术,提供个性化的课程和练习,重点在于实际交流所需的语言技能。注册账户,选择语言课程,按照学习计划进行学习。 Rosetta Stone:使用动态沉浸法,通过 AI 分析学习进度,提供适合的练习和反馈。注册并选择学习语言,使用多种练习模式(听力、口语、阅读和写作)进行学习。 5. AI 对话助手: ChatGPT:可以用来模拟对话练习,帮助提高语言交流能力。在聊天界面选择目标语言,与 AI 进行对话练习。可以询问语法、词汇等问题,甚至模拟实际交流场景。 Google Assistant:支持多种语言,可以用来进行日常对话练习和词汇学习。设置目标语言,通过语音命令或文本输入与助手进行互动,练习日常用语。
2025-03-01
怎样借助deepseek快速读完一本书
借助 DeepSeek 快速读完一本书可以参考以下方法: 1. 让 DeepSeek 扮演一本书的作者辅助阅读:例如在读项飚的《跨越边界的社区》时,可让 DeepSeek 解释作者的写作意图和思路。 2. 利用提示词提升 DeepSeek 的能力: 进行效果对比,如用 Coze 做小测试。 按照以下步骤使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 DeepSeek。 认真阅读开场白后正式开始对话。 其设计思路包括将 Agent 封装成 Prompt 并储存在文件,通过提示词文件让 DeepSeek 实现同时使用联网和深度思考功能,优化输出质量等。 3. 用 DeepSeek 翻译一本原版书: 运行逻辑:以 PDF 格式文件为样本,以标点符号和换行符为依据获得完整句子和段落。 前期准备: 安装依赖,如 Python 及一些相关依赖。 准备 API,可参考相关教程获取字节火山 DeepSeek 系列 API。 注意事项:原版书可能涉及敏感内容,国内大模型有过滤机制,部分内容 DeepSeek 处理不了,可转移去其他模型。
2025-02-28
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
我当前的工作是逐字核对PDF文档和word文档,并按pdf文档将word文档修正,如何借助AI工具实现
以下是一些可以帮助您实现将 PDF 文档与 Word 文档进行核对和修正工作的 AI 工具及方法: 1. DeepL(网站):访问,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):在安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):在下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再在点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):在点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-15