- 《EP.3 - IP Adapter 对话阿文:一图定风格,我和 AI 的契约》这一期播客记录了 IP Adapter 的作者叶虎、设计师阿文和投资人宙宙 Jo 的对话。他们讨论了 IP Adapter 的背景、应用和未来发展,分享了开发团队的初衷和开源精神 。
更多精彩博客:Diffuseum 播客-生成式模型研究Diffuseum 是一个对生成式图像、开源人工智能感兴趣的社区,这档播客记录关注的一线开发者的故事

- 《0绘画基础用AI为儿子做了蜘蛛侠生日海报》
- 《潘帅:手把手分享法律人如何用好AI — Prompt篇》
- 《熊猫大侠:Kimi Copilot - 搜罗精华,一键高效网页总结》
- 《2024AIGC法律风险研究报告(更新版).pdf》
- 《我用 Coze 免费手搓了一个 24 小时英语陪练,根治了我多年的哑巴英语!》作者安仔
- 《对话 MiniMax 闫俊杰:AGI 不是大杀器,是普通人每天用的产品》来自晚点,闫俊杰强调创业公司要做出用户量巨大的产品,才能独立发展。对于 AGI 的实现,他认为关键在于大家认为 AI 不再是 AI 的那一刻。并强调在技术快速进化的窗口关闭前,要做出具有商品化价值的人工智能技术和产品。

- 《Agent调研--19类Agent框架对比》作者骁骑,开源的Agent应用可以说是百花齐放,文章也是挑选了热度和讨论度较高的19类Agent,基本能覆盖主流的Agent框架,每个类型都做了一个简单的summary、作为一个参考供大家学习。

- 《大峰:AI音乐创作全流程解析:我的《梦回温州》AIMV荣获AI金曲奖并获央视推荐!》AI音乐创作的新浪潮正在来临,作为AI音乐爱好者,作者大峰荣幸地分享他的创作历程和经验,希望能激发更多人的创作热情!他创作的音乐视频《梦回温州》不仅荣获了AI音乐盛典的金曲奖,还被央视推荐了。

- 《Sam Altman & Brad Lightcap 最新专访:哪些公司会被 OpenAI 碾压?》来自有新,本周二, 20VC 主理人 Harry Stebbings 分享了与 OpenAI CEO Sam Altman 以及COO Brad Lightcap 最新对话,并探讨了 OpenAI 的愿景、战略以及对 AI 行业的深刻见解。

?Xiaohu.AI日报「4月17日」 ✨✨✨✨✨✨✨✨ 1⃣️ ? Stable Diffusion 3 API 发布 Stability AI 宣布支持 Stable Diffusion 3 及其 Turbo 版本。 SD3 在文字到图像生成领域性能优越,特别是在字体和提示遵循方面。 Stability AI 暗示未来可能收费但未定发布日期。
https://x.com/imxiaohu/status/1780604711743402066
2⃣️ ? 波士顿动力发布全新电动Atlas机器人 停止开发液压动力版本,转向全电动。 新电动Atlas设计轻巧,动作平滑,适用于复杂狭窄空间。 特点包括180度头部旋转,自我恢复能力,紧凑转弯能力。
https://x.com/imxiaohu/status/1780599667824513480
3⃣️ ?️ FireCrawl开源爬虫工具 无需站点地图,可抓取任何网站的所有可访问子页面。 抓取内容可转换为Markdown格式,支持JavaScript动态内容。 提供易用API,简化内容爬取和转换。
https://x.com/imxiaohu/status/1780592067586269465
4⃣️ ? InstantMesh: 10秒快速生成3D模型 腾讯开发,结合多视图扩散模型和LRM。 在10秒内创建高精度3D模型。 可在线体验该技术。
https://x.com/imxiaohu/status/1780586192385483106
5⃣️ ?️ Spline推出AI 3D Generation工具 支持文本生成3D模型,一次生成4种变体。 2D图像转3D图像,混合素材生成3D变体。 生成的3D内容可集成到网站和应用中。
https://x.com/imxiaohu/status/1780496970064552132
6⃣️ ? ZeST单一图像材质迁移技术 无需先前训练,可进行单一或多重材质编辑。 快速处理,不依赖云计算或服务器。 牛津大学、Stability AI 和 MIT CSAIL共同研发。
https://x.com/imxiaohu/status/1780487355696378210
7⃣️ ? 苹果iOS 18人工智能功能 首批AI功能将完全在设备上运行,保障隐私。 苹果正在开发大语言模型 "Ajax"。 苹果可能会在6月的WWDC大会上公布更多AI计划。
https://appleinsider.com/articles/24/04/15/apples-...
8⃣️ ? Reka Core: 强大的多模态语言模型 处理文本、图像、音频和视频的能力可与GPT-4V相媲美。 提供不同规模模型以满足业务需求。 Reka AI团队成员遍布全球,采用远程优先工作模式。
https://x.com/imxiaohu/status/1780428801908134319
9⃣️ ? CTRL-F-VIDEO: 视频中搜索特定词汇 通过Chrome扩展在YouTube视频中搜索关键词。 使用Whisper模型将音频转换为文本实现搜索。


