

作家 | 王涵
裁剪 | 心缘
智东西4月20日报谈,刚刚,阿里发布语音识别大模子Fun-ASR1.5,该模子是千问端到端语音识别大模子的新一代版块。
该模子不错识别30种说话,阴私汉文七大方言体系及20余种场所口音,并强化了古诗词朗诵的专项识别。Fun-ASR1.5不错区分出语音中的琅琅上口,要点优化了标点展望和文本归一化能力,不错诈欺于会议纪要、新闻采访整理、法律笔录等场景。
期间团队先容称,与Seed-ASR和Tencent-ASR模子比较,Fun-ASR1.5在西班牙语、葡萄牙语和英语方面的识别准确率得益较为凸起,均在96分以上。

Fun-ASR1.5在开源多说话测试荟萃得到多项SOTA
汉文方言方面,Fun-ASR1.5则在四川话、闽南话、长沙话、苏州话等13种方言识别准确率上,卓绝Seed-ASR和Tencent-ASR模子。

Fun-ASR1.5在工业方言测试荟萃得到多项SOTA
智东西第一时候体验了其音频转写功能。咱们上传了一段三星CES 2026“First Look”演讲的灌音音频。在原音频中,配景环境声息嘈杂,演讲东谈主使用英语演讲但带有韩语口音,且录制声息较小。
Fun-ASR1.5不仅将演讲内容准确完好意思地转写了出来,还笔据演讲东谈主的口吻和内容,对磋议语句进行了大写强珍爱理,提高了会议转写的遵守。

智东西实测体验音频转写
咫尺云开体育用户不错在魔搭社区体验该模子,建筑者不错通过阿里云百真金不怕火平台调用API。
一、能识别30种说话,跨说话切换无需预设
Fun-ASR1.5可精确识别欧洲、东亚、东南亚、南亚及中东主流语种,阴私中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种说话。

韩语:
ASR舍弃:저는 이 주제에 따라 한 말씀 드리자면, 사실 저희도 이전에 비슷한 상황을 겪은 적이 있습니다.
马来语:
ASR舍弃:Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.
西班牙语:
ASR舍弃:La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.
在跨说话切换(Code-Switching)场景下,Fun-ASR1.5不错作念到无需预设语种标签,就自动识别并切换,保证转写的准确性。比如,归拢段对话里夹杂多种说话,模子也能准确识别,无需提前告诉它接下来要说哪种说话。
英语日语切换:
ASR舍弃:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、念念っていたほどではなかったという経験は誰しもあることだと念念います。
期间团队先容称,这种多说话能力,源于模子的架构和考研立异。Fun-ASR1.5弃取MoE(羼杂群众)架构,模子里面不错单干结合,听到特定说话时仅激活磋议部分进行料理,因而更为无邪高效。
同期,期间团队在模子的考研阶段分级、分阶段地使用精确数据,也不错使模子更能适配真的宇宙中的复杂语音场景。
二、错字率下跌56.2%,古诗词准确率达97%
在汉文原土化方面,基于数十万小时真的方言语音数据考研,期间团队称,Fun-ASR1.5的平均字舛讹率(CER)比较上一版块下跌56.2%。

上海话:
ASR舍弃:当今发展了蛮快个当今伊拉用户算大户唻。
客家话:
ASR舍弃:呃,那些吃的不就这么的土笋冻啊,我合计不能口。
闽南话:
ASR识别舍弃:可是一个东谈主如若两三两百箍一百外箍安无算贵吧,吼自助餐啊,啊你也有肉咯也有菜咯也有生果咯也有甜点咯,啥物计有咯。
粤语:
ASR舍弃:诶,其实可能未必候合计去超市都几远下噶。
此外,该模子不仅听得懂,还能“写得纯正”,Fun-ASR1.5可原汁原味规复方言,如上海话的“侬”、苏州话“倷”(均指“你”),为卑劣模子料理方言翰墨提供了准确的基础语料。
不同于当代白话,文言语法非常、典故陌生字众多,具有不少挑战。举例,文言语法简练,不详主谓宾;押韵严格,节律固定(如五言、七言律诗);多用典故、异体字、古今异义词;朗诵时存在拖腔、停顿、吟咏等非当然语流特征。
Fun-ASR1.5对汉文古诗词识别进行专项优化。究诘团队构建了先秦至近代的古诗词语音-文本对王人语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真东谈主朗诵灌音。
在里面评测荟萃,Fun-ASR1.5对古诗词的字符级准确率达到97%,可诈欺于国粹在线课程和有声诗词,助力文化传承。
ASR舍弃:蓬山此去无多路,青鸟殷勤为探看。
ASR舍弃:子夏曰,博学而笃志,切问而近念念,仁在其中矣。
三、能自动插入标点标记,白话抒发一键标准
语音识别最终都要落脚于生成可平直使用的文本,Fun-ASR1.5在后料理设施也要点优化了标点展望和文本归一化两项能力,大幅缩短了会议纪要、新闻采访整理、法律笔录等场景的后期东谈主工校对和裁剪本钱,具体如下:
1、标点展望:愈加智能模子基于障碍文语义自动插入逗号、句号、问号、惊羡号等标点,使转写舍弃接近书面抒发。举例:
输入语音:“今天天气奈何样啊我想出去走走但又怕下雨”输出文本:“今天天气奈何样啊?我想出去走走,但又怕下雨。”
2、文本归一化(ITN)推崇:进一步栽植将白话中的非设施抒发自动调治为标准面貌:
数字:“三千五百六十二” → “3562”
日历:“二零二六年三月二十九号” → “2026年3月29日”
金额:“五万八千块” → “58000元”
电话:“幺三八零零幺三八零零零” → “13800138000”
结语:AI语音模子正稳步落地诈欺
会议纪要、法律笔录等场景,遥远处于“半自动”诈欺情状,核肉痛点是AI识别舍弃需东谈主工进行无数校对,不仅未能有用栽植使命遵守,还影响了本色使命鼓舞。
阿里Fun-ASR1.5针对这一痛点进行定向优化,补王人了传统语音识别的部分短板,也缩短了各行业引入AI语音期间的门槛。
咫尺,科大讯飞、百度、字节等企业的语音模子均在握续迭代,AI语音大模子正从期间研发慢慢向本色诈欺鼓舞,语音识别行为AI与东谈主交互的迫切进口,其实用性平直相关到行业落地的本色成果。