OpenAudio 宣布发布最新的语音生成模型 —— S1 模型,目标是达到专业配音演员的表现力与自然度。该模型由 Hanabi AI 旗下研究实验室开发,并通过产品平台 Fish Audio 对外发布。

S1具备:

  • 高度自然、流畅的声音
  • 丰富的语气和情绪控制
  • 强大的指令跟随能力(instruction following)

其训练数据超过 200 万小时音频,模型参数高达 40 亿(S1),是一款标志性里程碑产品。

模型版本

两者都支持情绪、语气标签、拟声控制等全部功能,差异主要在于质量与性能权衡。

主要功能特点

最大亮点:像配音演员一样“演”

S1 的最大创新,是它能理解并演绎“说话人的情绪与语气”,就像专业配音演员一样。

🗣️ 它是怎么做到的?

OpenAudio 首先训练了一个自研的 语音识别模型(STT),能自动识别语音中的:

  • 情绪(如:悲伤、愤怒、欣喜、同理、讽刺等)
  • 语气(如:急促、轻声、喊叫、尖叫等)
  • 说话人角色信息

然后,用这些“语音标签”标注了 超过 10 万小时语音数据,作为 S1 的训练输入。

🧩 支持的语音控制标签:

S1 最突出的能力是其丰富的语音表达控制标签系统,包括:

🎭 1. 情感标签(Emotion Markers):

如 (angry) (sad) (joyful) (sarcastic) (empathetic) 等

🎤 2. 语调/语气标签(Tone Markers):

如 (in a hurry tone) (whispering) (shouting) (soft tone)

💬 3. 特殊标签(Special Markers):

(laughing) (sighing) (sobbing) (crowd laughing) 等人类非语言行为

支持拟声词标记:如 Ha,ha,ha(笑声)Hmm,hmm(轻笑)

这些功能来自 OpenAudio 自研的 情感语音识别 STT 模型,可自动标注音频中说话者、情感、语气等信息,进一步提升 TTS 指令理解与还原能力。

这些标签可以插入文本中,引导 AI 合成具有表现力的语音。例如:

(speaker 1) (concerned) Honey, what's wrong? (speaker 2) (pretend to be tough) Nothing. I just said goodbye to Sanjay.

原生多语言支持(全球化)

S1 提供原生支持以下语言,确保全球应用的语音输出一致性:

  • 英语、中文、日语、德语、法语、西班牙语
  • 韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语

如何实现高质量?

S1 的高性能来自以下关键设计:

📦 数据与训练策略:

  • 200 万小时音频数据(业界最大规模之一)
  • 自研 奖励模型(reward model) 用于优化表现力
  • 在线强化学习 RLHF(使用 GRPO 算法):用于模型微调,增强语音真实性与听感质量

🧱模型结构与推理优化

  • 架构:基于 Qwen3 多模态架构,支持未来扩展为音频问答、文本问答、语音识别等任务(目前仅开放 TTS 功能)
  • 音频编解码:自研类 Descript Audio Codec 系统 + Transformer 结构
  • 优化技术:使用在线 RLHF 强化学习(基于 GRPO 策略)优化语音表现力

📊 多项指标全球领先:

  • HuggingFace TTS-Arena-V2 排名第 1(人类主观评分)
  • Word Error Rate(词错误率):0.008,远优于业界模型
  • Character Error Rate(字错误率):0.004
  • 极低的伪音、错词、语调失真等常见 TTS 问题

S1 甚至在语音表达、语音清晰度、语者一致性等方面全面超越现有模型。

价格极低,人人可用

S1 是当前市场上最具性价比的高质量 TTS 模型:

  • 仅 $15/百万字节
  • 相当于大约 $0.8/小时 音频成本
  • 明显低于市场主流(如 ElevenLabs、PlayHT 等)

开发者可以用非常低的成本部署大规模语音应用,包括客服机器人、播客生成、AI 角色配音等。

如何体验?

你可以通过 OpenAudio 的语音平台 Fish Audio Playground 在线体验该模型的语音效果(目前仅开放 TTS 功能,未来将支持 STT、TextQA、AudioQA 等)。

🔗 https://openaudio.com

Fish Audio Playground 上体验