(資料圖片僅供參考)
智通財經APP獲悉,9月26日,阿里巴巴(09988)旗下通義千問正式發布了Qwen3-Omni。據通義千問介紹,Qwen3-Omni是原生全模態大模型,預訓練全模態不降智,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應同時生成文本與自然語音輸出。
模型架構上,Qwen3-Omni采用Thinker-Talker架構:Thinker負責文本生成,Talker專注于流式語音Token生成,直接接收來自Thinker的高層語義表征。為實現超低延遲流式生成,Talker通過自回歸方式預測多碼本序列:在每一步解碼中,MTP模塊輸出當前幀的殘差碼本,隨后Code2Wav合成對應波形,實現逐幀流式生成。









