< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

国内首个端到端通用语音大模型——心辰Lingo开放内测预约

量子位的朋友们 2024-08-29 14:47:40 来源：量子位

实时打断、实时指令控制、超级拟人、能说会唱

内容导览：

国内首个端到端通用语音大模型——心辰Lingo现开放内测预约。

在技术上，心辰Lingo具备实时打断、实时指令控制、超级拟人、能说会唱等能力，拥有比 GPT-4o 更出色的中文语音效果。9月5日西湖心辰将在外滩大会上正式发布该模型，这一技术的突破或将对多个领域产生深远影响，有望引领人机交互进入一个全新的时代。

登陆「心辰Lingo」语音大模型官网（? https://lingo.xinchenai.com），即可马上预约内测。

什么是端到端语音对话模型？

传统的语音交互是先将语音转成文字，再理解文字，然后生成回复文字，最后再将文字转为语音。每次交互中“语音-文本”和“文本-语音”的转换不可避免地会丢失信息，特别是语音中包含的情绪表达和“言外之意”。

端到端语音对话模型，就像是一个“高情商”的朋友。它可以捕捉到语气的起伏，情绪的波动，甚至是话语中的犹豫和停顿。能“倾听”、能“引导”，还能与你”共情”，提供情绪价值。

端到端心辰Lingo三大核心优势

心辰Lingo作为国内首个端到端通用语音大模型，融合了语音识别、自然语言处理、意图识别、对话管理以及语音合成等多项前沿技术，具备实时打断、实时指令控制、超级拟人、能说会唱等能力。研发团队针对模型能力在多个领域和中文上进行增强，使Lingo的中文语音效果，相较GPT4o更为出色。与其他语音大模型相比，Lingo拥有以下3个技术特征：

• 原生的语音理解：在精准识别语音中的文字信息的同时，精确捕捉其他重要特征，如情感、语气、音调，甚至环境音，帮助模型更全面地理解语音内容，从而提供更加自然和生动的交互体验。

• 多种语音风格表达：能根据交互上下文和用户指令，自适应调整语音的速度、高低、噪声强度等，并生成对话、歌唱、相声等多种风格的语音响应，有效提升模型在不同应用场景下的灵活性和适应性。

• 语音模态超级压缩：采用具有数百倍压缩率的语音编解码器，能够将语音压缩至极短的长度，在显著降低计算和存储成本的同时帮助模型生成高质量语音内容。

心辰Lingo多场景多领域应用探索

端到端语音技术正以其强大的交互能力和智能化处理方式，不断地拓展在各行各业的应用边界。心辰Lingo作为行业先锋，也正积极进行相关应用场景探索。

• 具身智能：心辰Lingo可以扮演不同的助手角色，根据用户的需求和指令，提供个性化的语音服务。与具身智能技术深度融合，便能大幅提升智能机器人的意图识别与沟通理解能力，让用户享受智能生活带来的便捷之余，更能感受到科技的温情与贴心。

• 心理疗愈：心辰Lingo可以根据用户的情感状态，模拟“朋友”以及“亲人”的沟通方式，通过定制语音提供安慰和鼓励，帮助用户缓解压力和焦虑。此外，可以模拟心理咨询师，用专业且温暖的态度与用户进行语音交流，提供倾听、理解和引导，帮助用户走出情绪低谷。

• 客户服务：心辰Lingo卓越的即时响应能力，能确保在与用户交流时提供无任何体感延时的语音服务。它不依赖于传统的决策树结构，避免了因未预见情况而导致的响应障碍，无论用户提出何种问题，Lingo都能凭借其先进的算法和强大的语言理解能力，提供恰当且及时的答复。心辰Lingo还能精准识别客户烦躁、生气、高兴、舒缓等不同情绪，快速地调整语音语调、声音大小，以提供更具人性化和同理心的语音服务。

• 儿童教育：孩子天马行空的想象力和并不完善的语义表达增加了人机沟通的难度。心辰Lingo可以通过分析上下文、语气、语调等深入理解儿童语音内容，围绕“爱商教育”理念，以积极的鼓励和表扬与孩子们建立情感联系，激发他们的表达能力。此外它还能用说唱的方式来讲述故事情节与知识，增加学习的趣味性和吸引力，真正做到寓教于乐。

• 岁月档案：人类大脑的存储空间是有限的，心辰Lingo作为端到端AI语音大模型，具备长期记忆的能力，能提供记忆无限存储服务。它可以从对话中提取有效信息并记录存档，支持随时提取。利用存档的数据与AI克隆技术，即可复活亲友与你同频“交流”。它拥有你们之间共同的回忆，能更好地与你共情对话。

从智能家居到医疗健康，从客户服务到教育辅助，再到记忆存档，端到端语音系统正以其便捷性、高效性和个性化服务，引领人机沟通进入一个全新的时代。随着技术的不断成熟和创新，我们可以预见，该技术将在未来的智能世界中扮演更加核心和关键的角色，为人们的生活和工作带来更多的便利和可能。

心辰Lingo端到端语音大模型的问世，是西湖心辰在语音技术领域深耕细作的成果，也是探索智能语音应用的一次重要里程碑。

9月5日，西湖心辰将在外滩大会正式发布该模型。目前，心辰Lingo端到端通用语音大模型已开放测试预约，欢迎大家前来预约体验。

具身智能实时语音

量子位的朋友们

国内首个端到端通用语音大模型——心辰Lingo开放内测预约

内容导览：

什么是端到端语音对话模型？

端到端心辰Lingo三大核心优势

心辰Lingo多场景多领域应用探索

相关阅读

智平方携手生态伙伴首秀WAIC，郭彦东博士解析具身智能三大技术

3年1000台！全球半导体显示产业首次迎来具身智能机器人

“智元机器人收购A股上市公司是创新需要…现金流能撑三年”

知乎聚集AI大咖深度对话，许华哲解析具身智能三大失败模式

τ0-WM：最大规模预训练的开源具身世界模型来了

以“具身智能基座”为核，睿尔曼携全产品矩阵及新品亮相2025 WRC

热门文章

GPT-5.6首批实测来了！精准狙击Mythos

英特尔锐炫™ Pro B70 GPU亮相MPTS2026，共探大视听时代AI创作新范式

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌、英伟达

3D创作迎来ChatGPT时刻：Meshy发布全球首个3D AI Agent

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付