Navigate to WaytoAGI Wiki →

小互日报-1 月 12 日

·2024-01-12·#news
小互日报-1 月 12 日

1⃣️ ? Anim400K数据集介绍:

  • 超过425,000个音视频剪辑,总时长763小时。
  • 涵盖190多部作品,包含英语和日语内容。
  • 适用于自动配音、同步翻译、视频概括和分类等任务。 ? https://x.com/xiaohuggg/status/1745776503613505681?s=20

https://assets.waytoagi.com/usercontent/1280_X1280_10_469f20f11e.PNG

2⃣️ ? LEGO多模态理解模型:

  • 由字节跳动和复旦大学开发。
  • 支持图像、音频、视频输入,具备精准定位能力。
  • 可用于识别图像中物体位置,视频事件时间点,音频声源。 ? https://x.com/xiaohuggg/status/1745763961323262056?s=20 ? https://lzw-lzw.github.io/LEGO.github.io/

3⃣️ ? 苹果的跨语言理解能力提升:

  • 对比校准指令(AlignInstruct)强化多语言生成。
  • 改进未见和低资源语言翻译。
  • 有效翻译多达24种未见语言。 ? https://x.com/xiaohuggg/status/1745713962325536881?s=20

https://assets.waytoagi.com/usercontent/1280_X1280_11_81bf9a23f9.PNG

4⃣️ ? 奥特曼在YC W24的演讲重点:

  • 暗示通用人工智能(AGI)接近实现。
  • 建议以AGI实现为前提进行创业和技术开发。
  • GPT-5可能实现指数级跳跃,带来挑战。
  • 使用最先进模型比微调更有效。
  • OpenAI API将变得更快、可靠、便宜。
  • 不建议专注于解决GPT-4限制。 ? https://x.com/xiaohuggg/status/1745703281652101321?s=20

https://assets.waytoagi.com/usercontent/2024_01_24_09_53_54_0d14698c12.png

5⃣️ ? RADicalMotionAI面部捕捉技术:

  • 同时捕捉视频中的身体动作和面部表情。
  • 适用于单一视频,转化为动画数据。
  • 支持实时发送到Blender、Unity、Unreal Engine。
  • 动画数据可导出为FBX格式。 ? http://radicalmotion.com ? https://x.com/xiaohuggg/status/1745678100829233310?s=20

6⃣️ ? Ready Player Me服装设计创新:

  • 使用Stable Diffusion和ControlNet生成服装纹理。
  • 根据文本描述自动创建样式,如“蒸汽朋克”风格。
  • 适用于3D模型,包含真实细节和质感。
  • 支持多种风格,快速试验设计理念。
  • 训练数据集包含约1000个Ready Player Me资产。 ? https://x.com/xiaohuggg/status/1745670879978414168?s=20

https://assets.waytoagi.com/usercontent/1280_X1280_13_9c1260ec53.PNG

news
相关推荐