3月30日,阿里正式发布千问新一代全模态大模型Qwen3.5-Omni。该模型在音视频理解、识别、交互等215项任务中取得SOTA成绩,核心指标超越Gemini-3.1 Pro,跻身全球顶尖全模态大模型行列。
3月30日,阿里正式发布千问新一代全模态大模型Qwen3.5-Omni。该模型在音视频理解、识别、交互等215项任务中取得SOTA成绩,核心指标超越Gemini-3.1 Pro,跻身全球顶尖全模态大模型行列。

Qwen3.5-Omni采用Hybrid-Attention MoE架构,基于海量文本、视觉及超1亿小时音视频数据完成原生多模态预训练,支持文本、图片、音频、音视频全模态输入输出。其音视频理解能力可实现细粒度结构化描述,能精准识别113种语言及方言,还自然涌现出音视频Vibe Coding能力——用户对着镜头口述需求,即可生成可运行的代码。
实时交互体验也迎来升级,模型支持语义打断、音色克隆、语音控制等功能,可像真人一样灵活调节语速、情绪,还能自主调用WebSearch和工具完成复杂任务。Plus版本支持256K超长上下文,可处理超10小时音频或1小时视频。
目前,阿里云百炼已上线Plus、Flash、Light三种API规格,覆盖短视频、游戏、自媒体等场景。普通用户可前往Qwen Chat免费体验,开发者调用成本每百万Tokens不到0.8元,仅为Gemini-3.1 Pro的十分之一。
(来源:驱动中国)免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

)





)


