中科院自动化所发布通用AI平台可实现图文音“无缝转换”

从检索图像、描述视频，到吟诗作赋、续写文章，再到识别语音、双语翻译，虚拟人“小初”日前亮相2021世界人工智能大会，展示了图、文、音三种模态的智能转换和生成。

“小初”具备这样的能力，得益于一个名为“紫东太初”的跨模态通用人工智能平台。该平台由中国科学院自动化研究所研发，基于国产化基础软硬件，仅采用一个大模型，即可“锻炼”人工智能在视觉、文本、语音多个场景的理解能力。

中科院自动化所所长徐波介绍，“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式，多模态大模型将成为不同领域的共性平台技术，是迈向通用人工智能的重要路径探索。

“‘紫东太初’实现了图、文、音三种模态的统一表达，以图生音，以音生图，将开拓AI在视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。”徐波说。

据了解，中科院自动化所构建了中文预训练模型、语音预训练模型、视觉预训练模型，并通过跨模态语义关联，构建了三模态预训练大模型。（董瑞丰）

编辑：赵蕴清

分享到微信朋友圈

打开微信，点击 “ 发现 ” ，使用 “ 扫一扫 ” 即可将网页分享至朋友圈。

了解陕西大事关注陕西头条

推广丨万豪旅享家武汉区域6家酒店联袂打造“朝秦朝楚”跨城体验之旅

忒色 2026-07-17
安康岚皋：巴山唢呐传乡音

忒色 2026-06-29
“定制化”服务开辟城市消费新赛道

忒色从定制公交到银发专列，再到旅游包机，这些变化的背后，是交通与消费场景的深度融合 2026-06-27
一举高粽登华山，非遗端午纳安康——华山景区端午节文旅活动圆满收官

忒色本次文旅活动立足传统端午民俗文化内核，融合场景化、趣味化的互动形式，以多元化的活动内容为广大游客带来了独特的华山端午假期体验 2026-06-23
解锁古城文旅“夜游”新场景 80米水上金龙亮相曲江池

忒色 2026-06-22
慷慨悲壮五百年康王腔里听风骨

忒色 2026-06-18
世界爵士乐团中国巡演8月在西安启幕

忒色 2026-06-16
华山2026端午文旅活动将于6月17日正式启幕

忒色 2026-06-16
商洛首只自然繁育朱鹮雏鸟成功离巢

忒色石强介绍，朱鹮雏鸟大多在40日龄至45日龄离巢出飞 2026-06-15
“秦腔+咖啡”：烟火气里的跨界交响

忒色从“新潮场景”到“精神内核”的碰撞探索当咖啡遇见秦腔，这种看似“跨界”甚至略带反差感的组合，实际上是一场传统文化与现代生活方式的深度对话 2026-06-12
以影为媒，共赴成长：西影风雷年代影视基地迎来光影筑梦亲子研学潮

忒色当热播剧《主角》的年代故事，邂逅西影风雷影视基地的复古片场 2026-06-03
宝鸡青铜器博物院：守护青铜瑰宝展现中华文明魅力

忒色 2026-05-05

中科院自动化所发布通用AI平台 可实现图文音“无缝转换”

中科院自动化所发布通用AI平台 可实现图文音“无缝转换”

世相/发现

中科院自动化所发布通用AI平台可实现图文音“无缝转换”

中科院自动化所发布通用AI平台可实现图文音“无缝转换”