引言
【算力豹导读】2024科大讯飞全球1024开发者节开幕式上,讯飞星火4.0 Turbo正式发布。首发多模态视觉直接抢先GPT-4o,惊艳的超拟人数字人交互也是引发满堂喝彩!神态语气动作如此逼真的数字人,一亮相就破了国内纪录。
作为一年一度的人工智能盛会,本届开发者节以“万物智联 生生不息——解放生产力,释放想象力”为主题。
这次的盛会上,科大讯飞晒出了全科成绩单,场景覆盖了汽车、医疗、教育等,甚至在许多“科目”中得到了第一名。
讯飞星火4.0 Turbo七大能力全面超GPT-4 Turbo
从追赶到引领 国产大模型逆风发力
从2022年ChatGPT爆火,到今年诺贝尔物理学奖授予AI先驱,通用人工智能迎来黄金期。具体到技术层面,Sora、GPT4-o的发布验证了大模型在多模的成功应用;OpenAI o1系列模型进一步提升复杂任务和专业领域天花板。
通用人工智能的潜能不断被印证,也不断被刷新。但与此同时,目前通用大模型从“可用”到“好用”仍面临三个主要挑战:
首先是大模型的可信可解释问题,其次是端到端等新框架推广性问题,最后是大模型个性化“最后一公里”问题。
通过利用高质量数据以及反向对齐技术,讯飞星火此次带来全新的底层技术突破,优化这些问题的同时,不断提升大模型应用落地效果。
据刘庆峰介绍,讯飞星火4.0 Turbo全新升级,七大能力全面超过GPT-4 Turbo,数学能力、代码能力超过GPT-4o(Open AI最新一代GPT模型)。此外,星火4.0 Turbo效率相对提升50%。
在数学能力上,讯飞星火已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类o1的高难度数学能力显著提升。
与GPT 4o、Claude 3.5 Sonnet、Genmini1.5 pro等国际同行对比,星火4.0 Turbo在国内外中英文14项主流测试集上,实现了9项9项第一。
星火超拟人数字人,表情动作媲美真人
在1024现场,超拟人数字人能力正式发布!
科大讯飞首发的多模态视觉交互和超拟人虚拟人交互,可谓是现场最震撼的底座升级看点之一。
要知道,这种语音、视觉、虚拟人交互的「三合一」,属于业内首发。在多模态技术路线中,科大讯飞俨然已处于业内领先地位。
据了解,星火超拟人数字人在业界率先实现语义贯穿的“口唇-表情-动作”的超拟人数字人生成。科大讯飞副总裁、研究院院长刘聪现场进行了真机演示,超拟人数字人可以展现出目瞪口呆、卖萌的表情,实时与用户实现交流。
星火超拟人数字人还可识别、分辨面霜、酒、模型、植物等物品,不仅能介绍产品、还能为用户进行推荐,实现哪里不会拍哪里。刘聪演示过程中,在桌子上摆了孙悟空、奥特曼、怪兽的玩偶,超拟人数字人直接根据玩偶的站位变化,讲述了一个生动的故事。
据悉,星火超拟人数字人还支持个性创建,仅需一张照片即可打造自己的数字分身,用户可自定义数字人的性格、介绍、声音等个性化设定。
科大讯飞表示,一句语音即可实现声音复刻,支持多种身份、性格、场景的人设打造,人设类型已超1300多种。目前,超拟人数字人能力已正式开通内测,所有开发者和行业人士可申请使用。
联合华为共研小艺,解决语障问题
科大讯飞和华为联合研发了小艺声音修复,能让特殊人群的发音更加清晰,实现正常交流。
硬件方面,科大讯飞基于翻译技术打造的多语种AI翻译透明屏,能帮助用户通过这块透明显示屏实现无障碍交流。
大模型赋能民生刚需:发布教育、医疗、司法、政务等领域AI助手
在教育行业,首次发布基于“问题链”的高中数学智能教师系统。
刘庆峰介绍,搭载了高中数学智能教师系统的星火智慧黑板2.0将于10月25日在第84届教育装备展上正式发布,从AI均衡视听更公平、AI教学工具更高效、AI教师助手更智慧、全国产化算力更安全四个方面,推动黑板从板书工具跃迁为教学AI助手。
此外,讯飞AI学习机中首发AI作业过滤器。学习机通过OCR能力对纸质练习题进行识别,根据学生历史学习情况和本地化考情,将题目分出“必做题”“选做题”“建议不做题”三个等级,为学生做习题时提供“优先级”选项,以实现“练得更少、学得更好”的目标。
讯飞星火医疗大模型2.0实现了六大核心场景能力升级,包括医疗海量知识问答、医疗复杂语言理解、医疗诊断治疗推荐、医疗专业文书生成、医疗多轮交互、医疗多模态交互。
在细分的医学影像方面,目前围绕医学影像的诊断治疗,存在影像科医生数量相对不足、拍片质量参差不齐、重复影像检查发生率达到41.82%的问题。
基于讯飞星火医学影像大模型打造的智能医学影像助手也正式发布。在智能质控环节,智能医学影像助手可帮助影像技师快速评估图像质量,及时纠正检查问题;在智能诊断环节,可以帮助影像医师快速生成诊断报告,解释溯源并多期对比;在智能读片环节,可接入医学影像大模型,通过相关问答,帮助临床医师制定诊疗方案。
会上,讯飞医疗还联合安徽省卫生健康委员会、认知智能全国重点实验室,共同发布了全谱系全模态医学影像大模型开放合作计划,旨在汇聚全球最顶尖的影像AI科研团队,共同推进医学影像大模型的发展。
在司法场景,法律大模型赋能庭审笔录制作、裁判文书编写、法条类案检索等司法场景,和星火通用大模型相比,效率提升从61.7%升到87.9%。
在政务服务场景,政务大模型持续迭代,全面覆盖4500多种标准化事项和60多种材料,老百姓和政务大模型“聊天”就能实现边聊边确认办事意图,审核时间缩短80%,登记效率提升5倍。此外,发布会上首发了搭载政务大模型的“星火智办一体机”,方便群众从“问着办”到“领着办”。
结语
科大讯飞自成立之初便致力于人工智能领域的研究与发展,通过不断的技术创新和市场拓展,已经成长为全球领先的智能语音和人工智能公众公司,其影响力遍及教育、医疗、金融等多个行业。未来,随着人工智能技术的不断发展和应用,不仅是科大讯飞,将会有更多大模型厂商为全球用户带来更多创新和价值。(文/宋雨涵)