小互日报-2 月 8 日-WayToAGI

1⃣️

? Gemini Ultra 上线，Bard更名为Gemini：

Gemini Ultra带来界面优化、Gemini Advanced付费计划。
提供复杂任务执行能力，如编程、逻辑推理。
即将推出Gemini APP，与Google应用集成。

? https://gemini.google.com/updates

2⃣️

? OpenAI开发新型代理软件：

代理软件通过控制设备自动完成任务。
支持文档数据转移到电子表格、自动填写费用报告。

? https://x.com/xiaohuggg/status/1755587992067125449?s=20

3⃣️

? Stability AI发布AudioSparx 1.0音乐模型：

高效生成长达95秒的立体声音乐。
支持可变长度音频输出和立体声渲染。
性能优于AudioLDM2和MusicGen。

? https://arxiv.org/abs/2402.04825

? https://github.com/Stability-AI/stable-audio-tools

? https://github.com/Stability-AI/stable-audio-metrics

? https://stability-ai.github.io/stable-audio-demo/

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1755565164139823105_720p_83181cca95.mp4

4⃣️

? Vision Pro拆解揭示显示技术：

双显示屏分辨率和像素密度超高。
电池包复杂设计，提供高容量。
显示体验高密度，展示Apple技术领先。

? https://ifixit.com/News/90409/vision-pro-teardown-part-2-whats-the-display-resolution

? https://x.com/xiaohuggg/status/1755558069143306328?s=20

5⃣️

? YOLO-World：腾讯AI实验室开发的一个实时目标检测工具：

它能够自动识别和定位图像中的各种对象

YOLO-World在速度和准确性方面都优于许多最先进的方法。

零样本检测能力，无需训练即可进行实时目标检测，即便某些物品之前没有见过。

主要特点：

1、大规模学习：

YOLO-World通过学习大量的图片和对应的描述（如物品名称），获得了丰富的视觉知识和语言知识，这使得它能识别出广泛的物品。

该项目在包括Objects365、GQA、Flickr30K和CC3M在内的大规模视觉-语言数据集上进行了预训练，赋予了YOLO-World强大的零样本开放词汇能力和图像中的定位能力。

2、快速准确：Y

OLO-World在LVIS数据集上的零样本评估中达到了35.4 AP，并且在V100上的处理速度为52.0 FPS，速度和准确性均超过许多最先进的方法。即使是在包含复杂场景的图片中也能保持高准确率。YOLO-World 声称比 GroundingDINO 快 20 倍。

3、零样本检测：

最令人印象深刻的是，即便某些物品YOLO-World之前没有见过，它也能凭借先前的学习和理解能力，通过图片中的线索和上下文信息，成功识别和定位这些新物品。

4、理解物体：YOLO-World不仅依靠视觉信息，还结合了语言信息。它理解人类的语言描述，这让它能够识别出即使是之前没有直接见过的物体。

项目及演示：http://yoloworld.cc

论文：https://arxiv.org/abs/2401.17270

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1755493285295247360_720p_b91c4b0e8c.mp4

6⃣️

? Archax操作型机器人详解：

总高度4.5米，重量3.5吨，26个关节自由度。
机器人/车辆模式，最高速度10km/h。
驾驶舱内部设有四面显示屏和九个摄像头。

? https://x.com/xiaohuggg/status/1755445005739753592?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1755443820014321665_720p_834b1158db.mp4

7⃣️

? CheXagent自动解读胸部X光图像：

自动分析胸部X光，生成放射学报告。
解读性能高效，超越通用和医疗领域模型。
支持多样化任务处理，如图像理解、问题回答。

? https://stanford-aimi.github.io/chexagent.html

? https://arxiv.org/abs/2401.12208

? https://github.com/Stanford-AIMI/CheXagent

? https://x.com/xiaohuggg/status/1755434771994525928?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1755185433137618944_720p_0304885d4a.mp4

8⃣️

? MetaVoice-1B文本到语音转换模型：

1.2亿参数，10万小时语音数据训练。
支持情感语音节奏、跨语言语音克隆。
零样本克隆支持，适合长篇内容语音合成。

? https://huggingface.co/metavoiceio/metavoice-1B-v0.1

? https://github.com/metavoiceio/metavoice-src

? https://ttsdemo.themetavoice.xyz

? https://x.com/xiaohuggg/status/1755423130464772568?s=20

https://assets.waytoagi.com/usercontent/X2_Twitter_com_1755147692337254400_720p_703012680a.mp4