1⃣️
?VSP-LLM:理解和翻译视频中的唇语
- 将视频中唇动转化为文本,实现视觉语音识别和翻译。
- 基于AV-HuBERT模型,利用先进技术识别语音信息。
- 智能去除不必要重复信息,提高处理效率。
? https://github.com/facebookresearch/av_hubert
https://assets.waytoagi.com/usercontent/X2_Twitter_com_1762089421904715776_720p_2339e85201.mp4
2⃣️
?MIRAGE:提升医学问答性能的检索增强生成框架
- 使用最新可信文档辅助LLMs,减少错误信息,提升回答准确性。
- MIRAGE应用MedRAG,某些模型性能提升至GPT-4水平。
? https://teddy-xionggz.github.io/benchmark-medical-rag/
? https://arxiv.org/abs/2402.13178

3⃣️
?Genie:从单图生成无限可玩游戏场景
- 支持合成图像、真实照片、手绘草图转化成可互动游戏场景。
- 降低创造复杂虚拟环境门槛,加速内容创作和游戏开发。
? https://x.com/xiaohuggg/status/1761981007929176541?s=20
https://assets.waytoagi.com/usercontent/X2_Twitter_com_1761980646287958016_720p_9a7bfc4c9d.mp4
4⃣️
?Sora完整能力曝光:视频和图像的全方位处理与生成
- 生成、编辑、识别、处理、理解视频和图像内容。
- Sora展现出与Gemini 1.5 Pro相似的视频理解能力,能分析长达1小时的视频。
? https://x.com/xiaohuggg/status/1761938064421867782?s=20







