资讯

近日,阿里巴巴通义实验室联合悉尼大学、DeepGlint和帝国理工学院的研究团队发布了一项创新研究,提出了**UniME(Universal Multimodal Embedding)**框架,旨在突破多媒体AI在图文理解中的局限。这项研究于2025年4月发表,论文标题为《Breaking the Modality Barrier: Universal Embedding Learning ...
为了解决这个问题,研究团队提出了一个名为UniME(Universal Multimodal Embedding,通用多模态嵌入)的创新框架。这个框架就像一个经过特殊训练的多语言专家,不仅能深度理解图片和文字的内容,还能准确地判断它们之间的关联程度。
微软发布Phi-4-multimodal,这是一款小型语言模型(SLM)具备处理语音、图像与文本的能力,已于Azure AI Foundry、Hugging Face及Nvidia API Catalog上线。相较于 ...
AsianFin— Sunrise, a domestic AI chipmaker spun off from SenseTime’s core semiconductor division, has raised nearly $139 ...
首先,谷歌发布了一系列用于健康 AI 开发的多模态模型 MedGemma ,其中包含 4B 和 27B 两个大小的几个不同模型:MedGemma 4B Multimodal、MedGemma 27B Text 和 MedGemma 27B Multimodal。
BEIJING, June 10 (Xinhua) -- A group of Chinese scientists confirmed that multimodal large language models (LLMs) can spontaneously develop human-like object concept representatio ...