信息差

OpenAudio震撼发布S1语音模型：专业配音级别的表现力与自然度

OpenAudio 宣布发布最新的语音生成模型 —— S1 模型，目标是达到专业配音演员的表现力与自然度。该模型由 Hanabi AI 旗下研究实验室开发，并通过产品平台 Fish Audio 对外发布。

S1具备：

高度自然、流畅的声音
丰富的语气和情绪控制
强大的指令跟随能力（instruction following）

其训练数据超过 200 万小时音频，模型参数高达 40 亿（S1），是一款标志性里程碑产品。

模型版本

两者都支持情绪、语气标签、拟声控制等全部功能，差异主要在于质量与性能权衡。

主要功能特点

最大亮点：像配音演员一样“演”

S1 的最大创新，是它能理解并演绎“说话人的情绪与语气”，就像专业配音演员一样。

🗣️ 它是怎么做到的？

OpenAudio 首先训练了一个自研的 语音识别模型（STT），能自动识别语音中的：

情绪（如：悲伤、愤怒、欣喜、同理、讽刺等）
语气（如：急促、轻声、喊叫、尖叫等）
说话人角色信息

然后，用这些“语音标签”标注了 超过 10 万小时语音数据，作为 S1 的训练输入。

🧩 支持的语音控制标签：

S1 最突出的能力是其丰富的语音表达控制标签系统，包括：

🎭 1. 情感标签（Emotion Markers）：

如 (angry) (sad) (joyful) (sarcastic) (empathetic) 等

🎤 2. 语调/语气标签（Tone Markers）：

如 (in a hurry tone) (whispering) (shouting) (soft tone)

💬 3. 特殊标签（Special Markers）：

(laughing) (sighing) (sobbing) (crowd laughing) 等人类非语言行为

支持拟声词标记：如 Ha,ha,ha（笑声）Hmm,hmm（轻笑）

这些功能来自 OpenAudio 自研的 情感语音识别 STT 模型，可自动标注音频中说话者、情感、语气等信息，进一步提升 TTS 指令理解与还原能力。

这些标签可以插入文本中，引导 AI 合成具有表现力的语音。例如：

(speaker 1) (concerned) Honey, what's wrong? (speaker 2) (pretend to be tough) Nothing. I just said goodbye to Sanjay.

原生多语言支持（全球化）

S1 提供原生支持以下语言，确保全球应用的语音输出一致性：

英语、中文、日语、德语、法语、西班牙语
韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语

如何实现高质量？

S1 的高性能来自以下关键设计：

📦 数据与训练策略：

200 万小时音频数据（业界最大规模之一）
自研 奖励模型（reward model） 用于优化表现力
在线强化学习 RLHF（使用 GRPO 算法）：用于模型微调，增强语音真实性与听感质量

🧱模型结构与推理优化

架构：基于 Qwen3 多模态架构，支持未来扩展为音频问答、文本问答、语音识别等任务（目前仅开放 TTS 功能）
音频编解码：自研类 Descript Audio Codec 系统 + Transformer 结构
优化技术：使用在线 RLHF 强化学习（基于 GRPO 策略）优化语音表现力

📊 多项指标全球领先：

HuggingFace TTS-Arena-V2 排名第 1（人类主观评分）
Word Error Rate（词错误率）：0.008，远优于业界模型
Character Error Rate（字错误率）：0.004
极低的伪音、错词、语调失真等常见 TTS 问题

S1 甚至在语音表达、语音清晰度、语者一致性等方面全面超越现有模型。

价格极低，人人可用

S1 是当前市场上最具性价比的高质量 TTS 模型：

仅 $15/百万字节
相当于大约 $0.8/小时 音频成本
明显低于市场主流（如 ElevenLabs、PlayHT 等）

开发者可以用非常低的成本部署大规模语音应用，包括客服机器人、播客生成、AI 角色配音等。

如何体验？

你可以通过 OpenAudio 的语音平台 Fish Audio Playground 在线体验该模型的语音效果（目前仅开放 TTS 功能，未来将支持 STT、TextQA、AudioQA 等）。

🔗 https://openaudio.com

在 Fish Audio Playground 上体验

如果觉得文章对你有用，请随意赞赏

快讯

OpenAudio震撼发布S1语音模型：专业配音级别的表现力与自然度

https://soraor.com/archives/ai-today_20250604113916

作者

破晓

发布于

2025-06-04

更新于

2025-06-04

许可协议

CC BY 4.0