资讯

多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。 比如,「一个玩具被遮住后还在吗?」、「液体倒入不同形状容器后,体积变了吗?」、「两个 ...