Navigate to WaytoAGI Wiki →

小互日报-2 月 20 日

·2024-02-20·#news
小互日报-2 月 20 日

1⃣️

? PixelPlayer:MIT研究团队的创新

  • 自动识别并分离视频中的声音源,匹配画面位置。
  • 为音视频编辑提供强大工具:独立调整音量、去除或增强特定声音源。
  • 核心功能:声音源分离、声音定位、多声音源处理。

? http://sound-of-pixels.csail.mit.edu

? https://arxiv.org/abs/1804.03160

? https://x.com/xiaohuggg/status/1759916778229268874?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1759915180379807744_720p_a95b6164f6.mp4

2⃣️

? OOTDiffusion:高度可控的虚拟服装试穿工具

  • 高质量服装图像生成与融合,支持半身和全身模型。
  • 可控试穿参数,自然融合与逼真效果。
  • 开源项目,支持在线测试。

? https://github.com/levihsu/OOTDiffusion

? https://ootd.ibot.cn

? https://x.com/xiaohuggg/status/1759876272505942462?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1759840061896695808_720p_fabd61893e.mp4

3⃣️

? AnyGPT:跨模态大语言模型

  • 从任意模态到任意多模态的理解与生成。
  • 支持文本、图像、视频、音频等模态输入和输出。
  • 采用离散表示法处理不同模态数据。

? https://junzhan2000.github.io/AnyGPT.github.io/

? https://arxiv.org/pdf/2309.05519.pdf

? https://x.com/xiaohuggg/status/1759823372891090990?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1759822684891074560_720p_adb7598b32.mp4

4⃣️

? 利用Groq实现实时AI对话

  • 结合Llama-70B模型与Whisper模型,实现几乎零延迟性能。
  • 展望:GPT 4或GPT 5可能实现的秒级写作和AI实时通话。
  • http://groq.com

? https://x.com/xiaohuggg/status/1759780187074646164?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_dg_E_Iw4m5oz7_Fn903_600p_abe3376f92.mp4

news
相关推荐