Navigate to WaytoAGI Wiki →

小互日报-2 月 26 日

·2024-02-26·#news
小互日报-2 月 26 日

1⃣️

?VSP-LLM:理解和翻译视频中的唇语

  • 将视频中唇动转化为文本,实现视觉语音识别和翻译。
  • 基于AV-HuBERT模型,利用先进技术识别语音信息。
  • 智能去除不必要重复信息,提高处理效率。

? https://github.com/facebookresearch/av_hubert

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1762089421904715776_720p_2339e85201.mp4

2⃣️

?MIRAGE:提升医学问答性能的检索增强生成框架

  • 使用最新可信文档辅助LLMs,减少错误信息,提升回答准确性。
  • MIRAGE应用MedRAG,某些模型性能提升至GPT-4水平。

? https://teddy-xionggz.github.io/benchmark-medical-rag/

? https://arxiv.org/abs/2402.13178

https://assets.waytoagi.com/usercontent/X2_Twitter_com_GH_Qsfhga8_AAV_9_EU_58b827163c.jpg

3⃣️

?Genie:从单图生成无限可玩游戏场景

  • 支持合成图像、真实照片、手绘草图转化成可互动游戏场景。
  • 降低创造复杂虚拟环境门槛,加速内容创作和游戏开发。

? https://x.com/xiaohuggg/status/1761981007929176541?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1761980646287958016_720p_9a7bfc4c9d.mp4

4⃣️

?Sora完整能力曝光:视频和图像的全方位处理与生成

  • 生成、编辑、识别、处理、理解视频和图像内容。
  • Sora展现出与Gemini 1.5 Pro相似的视频理解能力,能分析长达1小时的视频。

? https://x.com/xiaohuggg/status/1761938064421867782?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_GH_On1_P_Wac_A_Aj_IXB_396c8eee09.jpg

news
相关推荐