Navigate to WaytoAGI Wiki →

小互日报-2 月 26 日

·2024-02-26·#news

小互日报-2 月 26 日

1⃣️

?VSP-LLM：理解和翻译视频中的唇语

将视频中唇动转化为文本，实现视觉语音识别和翻译。
基于AV-HuBERT模型，利用先进技术识别语音信息。
智能去除不必要重复信息，提高处理效率。

? https://github.com/facebookresearch/av_hubert

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1762089421904715776_720p_2339e85201.mp4

2⃣️

?MIRAGE：提升医学问答性能的检索增强生成框架

使用最新可信文档辅助LLMs，减少错误信息，提升回答准确性。
MIRAGE应用MedRAG，某些模型性能提升至GPT-4水平。

? https://teddy-xionggz.github.io/benchmark-medical-rag/

? https://arxiv.org/abs/2402.13178

3⃣️

?Genie：从单图生成无限可玩游戏场景

支持合成图像、真实照片、手绘草图转化成可互动游戏场景。
降低创造复杂虚拟环境门槛，加速内容创作和游戏开发。

? https://x.com/xiaohuggg/status/1761981007929176541?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1761980646287958016_720p_9a7bfc4c9d.mp4

4⃣️

?Sora完整能力曝光：视频和图像的全方位处理与生成

生成、编辑、识别、处理、理解视频和图像内容。
Sora展现出与Gemini 1.5 Pro相似的视频理解能力，能分析长达1小时的视频。

? https://x.com/xiaohuggg/status/1761938064421867782?s=20

news

相关推荐

知识库精选-2025年10月29日

知识库精选-2025年10月29日

《Wan2.5-Preview系列模型商业化发布》

知识库精选-2025年10月28日

知识库精选-2025年10月28日

《Claude Code 实战：10 个让效率翻倍的技巧》《成峰：15分钟打造一个全自动的爆款选题Agent》《万字文章讲明白，企业内部该怎么落地AI评测》

知识库精选-2025年10月27日

知识库精选-2025年10月27日

《用 AI 搭建分镜意识》《扣子中的自媒体数据插件是如何做的？》《Figma 如何战胜 Adobe 等六篇 | 42章经 AI Newsletter》

知识库精选-2025年10月26日

知识库精选-2025年10月26日

《n8n AI Builder 深度实测》《一个产品经理的“Vibe Coding”实践、体会和思考》

知识库精选-2025年7月14日

知识库精选-2025年7月14日

《Kimi K2：Claude Code版使用教程》《大型多模态模型训练原理》

知识库精选-2025年7月13日

知识库精选-2025年7月13日

《AI Agent实战指南：6步落地法（附邮件助手案例）》《下一代图片编辑工具Kontext：一致性最优解（附用法）》

知识库精选-2025年7月12日

知识库精选-2025年7月12日

《银海：设计与品味，将在 AI 时代成为新壁垒》《Kimi K2 详测｜超强代码和Agent 能力!》

知识库精选-2025年7月11日

知识库精选-2025年7月11日

《云舒：Claude Code效率翻倍教程》《甲木：AI版六顶思考帽，拯救思维混乱（附Prompt）》