紫东太初是由中科院自动化所和武汉人工智能研究院联合推出的一个全模态大模型,它是在千亿参数多模态大模型“紫东太初1.0”基础上升级打造的2.0版本。紫东太初大模型支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,具有强大的认知、理解、创作能力,能够带来全新的互动体验。紫东太初2.0可以做什么?紫东太初2.0可以理解三维场景、信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。
文本创作
文案创意写作、文本扩写、文章续写、内容摘要、多语种翻译、写诗作词、写代码、解数学题样样拿手
知识问答
专属知识库和联网搜索实现大模型检索增强,有效缓解幻觉,加速知识学习,使得大模型更加实用和可信
多模态理解
关注图文音三模态数据之间的关联特性,支持图文问答、视觉定位、视觉指代、OCR问答、音乐理解
多模态内容生成
多种艺术风格的AI作画,精准控制绘画细节;文本指令可智能作曲生成音乐片段
3D理解
基于点云数据的3D场景理解和物体感知能力
信号分析
支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等
紫东太初是由中国科学院自动化研究所和武汉人工智能研究院推出新一代多模态大模型,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。
大模型开放服务平台
面向行业AI应用开发者和算法研究人员的一站式大模型训推服务平台
开箱即用,一键微调
内置多种参数版本的预训练大模型和完整开发工具链,零代码实现数据导入、清洗配比、在线标注、模型微调、服务发布、插件编排的模型开发全流程
全栈国产,适配信创
兼容主流计算芯片和开源框架,支持全栈国产化软硬件解决方案,满足信创需求,推动行业的数字化转型
快速部署,灵活交付
支持多种公有云SaaS API服务、云上专属资源池、私有集群部署、超融合训推一体机等多种交付部署方案
平台核心能力
数据中心
导入和管理多模态数据集,内置丰富数据预处理算子,实现数据清洗、配比、发布
智能标注
多种标注任务模版,支持模型智能标注和人工复核,在线编写指令
模型微调
零代码一键微调,可视化训练过程,实时日志输出和资源监控,支持多机多卡分布式训练
服务部署
一键发布模型为在线服务,轻松API调用,支持授权请求和模型导出
推理增强
导入文档构建专属知识库,管理和编排插件,实现大模型推理增强,发布Agent应用
数据回流
推理数据在线收集回流至数据集,线上持续迭代,闭环大模型开发应用
紫东太初的主要功能
一、图像能力
- 图像描述:基于用户上传的图片素材,准确理解并回答图片识别类问题
- 目标检测:支持丰富品类的目标检测任务,能够判定目标类型、数量和对应的位置信息
- 图像检索:基于海量的高质图片素材库,能为用户搜索出关联度高的精致图片素材
- 图像生成:针对用户指令诉求,生成对应的精致图片,并可以修改描述微调图片内容
- 文字识别:基于图片内容,支持多场景、多语种、高精度的文字检测与识别服务
二、语言能力
- 中文问答:准确理解用户输入的问题语境,并能做出准确的知识性问答
- 文本续写:基于用户输入的故事引导自动续写丰富故事内容
- 文本创作:准确理解用户输入意图,并生成语意连贯、逻辑通顺的文本内容
- 标题生成:基于对文章或者长文本的理解,快速聚合生成精简且概括的标题文案
- 语法分析:准确理解并分析中英文句子的语法,提醒语法错误并修改等
- 机器翻译:帮助用户翻译各类型文本素材,包括中英文互译、文言文和白话文互译等
- 古诗创作:基于用户给到的主题或引导内容即兴创作诗歌、绝句等
- 代码理解:理解C语言、Python、JAVA等绝大部分编程语言、算法和数据结构,快速给出所需的解答
- 代码编写:能帮助用户快速编写简单的代码片段,例如函数、类或循环等
- 数学计算:既能处理常规数学计算问题,也能处理如《孙子算经》上记录的鸡兔同笼数学应用问题等
- 逻辑推理:支持处理复杂的逻辑推理类问题,包括科学推理、常识推理、时空推理等
三、视频能力
- 视频描述:基于用户上传的视频素材,准确理解并回答视频识别、视频描述类问题
- 视频检索:基于海量的高质视频素材库,能为用户搜索出关联度高的精致视频素材
- 视频问答:基于用户上传的视频素材,准确理解并回答视频相关的问题,同时支持上下文信息理解和多轮问答
四、音乐能力
- 音乐生成:通过给定的文本提示可控生成高保真的音乐,并支持即兴创作多种风格类型和多种乐器演奏的音乐
- 音乐多模问答:基于对用户上传的音乐素材的理解,可完成相关多模态问答任务
五、音频能力
- 音频鉴伪:紫东太初能判断当前音频是真人说话还是机器合成
- 音频事件分类:可检测当前音频中所包含的声音事件类型,目前支持11种单一声音事件和混合声音事件
- 语音识别:可将语音快速准确识别为文字,支持手机应用语音交互、语音内容分析多个场景
- 语音合成:提供高度拟人、流畅自然的语音合成服务,满足文本阅读、语音播报等各类型场景需求
六、3D能力
- 3D场景描述:紫东太初2.0具备基于点云数据的3D场景理解和物体感知能力
七、信号类能力
- 信号识别:支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等
如何使用紫东太初
- 访问紫东太初的官网(taichu-web.ia.ac.cn),点击对话体验
- 登录/注册你的账号,申请使用登录成功后便会自动跳转到对话界面
- 输入你的问题或者输入斜杠选择推荐提示指令(你也可以选择内置的示例查看),然后点击发送
- 紫东太初便会智能回答你的问题