Poe 发布2025年1月-5月上半年其聊天机器人平台的相关数据,通过分析其平台上跨模型的真实使用数据,揭示了AI模型在2025年春季的主要使用趋势。

报告突出模型选择的动态性,展示了文本推理、图像/视频生成、音频TTS领域的多项变化和技术演进。

  • 推理模型快速崛起:多个实验室以更快速度迭代,推动推理模型成为新竞争高地。
  • 图像与视频生成走向多样性:尤其中国厂商的进入正在重塑市场。
  • 音频生成尚属初级博弈阶段,ElevenLabs仍居绝对优势。

以下为报告总结

一、💬 文本模型趋势(聊天、写作、代码助手)

✅ 趋势一:OpenAI 和 Google 的模型越来越受欢迎

  • OpenAI 的 GPT-4.1 系列发布后几周内就快速占据了约 10% 的使用量
  • Google 的 Gemini 2.5 Pro 也在上线不久后达到 5%,并持续增长。

这说明用户更偏好新发布、功能强大、反应更聪明的模型。

❌ 趋势二:旧模型逐渐被取代

  • 例如,Anthropic 的 Claude 3.5 被 Claude 3.7 替代,但整体使用下降了约 10%
  • DeepSeek 的一个模型曾因“病毒传播”一度走红,但几个月后使用下降了一半。

📌 总结:用户喜欢用最新版模型,老模型即使还在也会慢慢被淘汰。


二、🧠 推理模型(更聪明地解决复杂问题)

这类模型能更深入思考、回答复杂逻辑问题,越来越受欢迎。

📈 增长情况:

  • 2025年初,使用推理模型的比例是 2%,到5月已经涨到了 10%
  • Gemini 2.5 Pro 推理方面表现非常突出,短短6周内拿下了 30% 的推理任务使用量
  • OpenAI 连发多个新推理模型(如 o3、o4-mini),用户也快速迁移到新版本。

🤖 谁掉队了?

  • Elon Musk 旗下的 Grok-3-mini 虽然技术强,但因为接口受限,使用率不到 1%
  • 有些混合模型(可以自动调整思考深度)虽然新颖,但用户使用还比较少。

📌 总结:推理能力正在成为AI模型的新竞争重点,OpenAI 和 Google 目前领先。


三、🖼️ 图像生成(AI画图)

现在不仅文字聊天流行,AI画图也越来越热门,而且质量越来越高。

🚀 新热点:

  • GPT-Image-1(OpenAI) 在4月刚推出,仅用两周就拿下了 17% 的图像生成使用量。
  • Google 的 Imagen 3 系列稳定增长,从10%到30%。

👑 谁是老大?

  • FLUX 系列(黑森林实验室) 曾长期领先,当前份额约 35%,略有下降。

📌 总结:新选手不断加入,图像生成领域竞争激烈,但用户也有更多高质量选择。


四、🎞️ 视频生成(AI做视频)

AI现在不仅能画图,还能自动生成短视频

💡 爆红产品:

  • 中国公司快手的 Kling 2.0,仅用三周就占了 Poe 上 21% 的视频生成量,用户反馈非常好。
  • Google 的 Veo 2 也稳定表现,占 20%
  • 之前领先的视频模型 Runway 的份额从 40% 降到 20%,明显被新玩家挤压。

📌 总结:AI视频工具发展非常快,中国公司也开始在全球市场抢占地位。


五、🔊 音频生成(文字转语音,TTS)

AI 还能把你打的字变成有感情的语音。

👂 谁最受欢迎?

  • ElevenLabs 是目前最受欢迎的音频生成服务,占了 80% 的使用份额。
  • 新公司如 Unreal Speech、Cartesia、PlayAI 正在尝试用不同声音风格和价格来抢市场。

📌 总结:虽然 ElevenLabs 目前一家独大,但竞争对手已在慢慢涌现。


完整报告翻译

人工智能的格局正以前所未有的速度演变,但超越标准化基准或排行榜平台,了解需求和使用模式 仍然是一个挑战。与此同时,一周的首选模型可能因前沿提供者的强大升级或意外的颠覆者而迅速改变。

我们的目标是让Poe成为探索、比较和利用人工智能模型输出的最佳场所。由于Poe用户以提供商无关的方式访问到最新的前沿模型,潜在的趋势可能预示着人工智能生态系统的更广泛变化。

基于我们的 前一份报告,本分析展示了2025年1月至2025年5月之间Poe用户在几个关键但扩展的领域中的每周汇总使用数据: 文本、推理、图像、视频和音频。这包括了在DeepSeek的病毒时刻之后,推理模型的持续增长,图像和视频生成变得越来越具有竞争力,以及音频多样化的早期迹象。

我们希望我们最新的发现能为研究人员和公众提供对迅速扩展的人工智能生态系统的有益洞察。 [1] [2]

前沿实验室快速发布更智能的通用文本模型

  • OpenAI的 GPT-4.1 系列和谷歌的 Gemini 2.5 Pro 在现实世界编程任务中提供了改进的表现,在发布后几周内,消息份额迅速增加至 ~10% 和 ~5%。
  • Anthropic的Claude系列(例如 Claude 3.5 SonnetClaude 3.7 Sonnet)在同一时期内见证了 ~10%的绝对份额下降。
  • DeepSeek 的病毒时刻似乎已减弱,因为其他价格合理、冗长的推理模型相继发布,DeepSeek R1的消息份额从2月中旬的高峰7%下降至4月底的3%。
  • 前一份报告 的发现相似,单个提供商的旗舰模型似乎在吞噬其前身。在这种情况下,Poe订阅者迅速接受了 Claude-3.7-Sonnet,而 Claude-3.5-Sonnet 尽管仍在大语言模型中保留了约12%的整体使用率。

推理模型在DeepSeek今年早些时候的病毒入场后持续使用

自2025年初以来,前沿实验室一直在快速迭代其推理模型的产品。这导致能够花费更多时间和计算能力以更精确和可靠地解决复杂任务的模型数量增加。值得注意的是,在报告期内,发送给Poe推理模型的所有文本消息份额从 ~2% 增加到 ~10%,在DeepSeek的病毒时刻达到峰值。

以下是具有推理能力的模型在文本子类别中的消息份额。

  • Poe订阅者中 Gemini 2.5 Pro 的使用正在迅速增长,该模型在发布仅 ~6 周内获得了 ~30%的推理消息份额。
  • OpenAI在2024年末发布定义类别的推理模型 o1-preview 后,继续以无与伦比的速度发布更强大且价格合理的推理模型,在2025年前四个月内推出了 o1-pro, o3-mini, o3-mini-high, o3, 和 o4-mini。在OpenAI的推理模型中,订阅者似乎正在迅速采用最新的模型(例如o3-mini → o4-mini, o1 → o3)。
  • 尽管xAI的Grok 3在其 2025年2月公开发布中在各种问题解决基准中名列前茅, Grok-3-mini 仍然是该系列中唯一支持在 xAI API 中进行推理的模型,这也许是它在推理模型使用中占比不足1%的原因。
  • 我们注意到,混合推理模型的早期出现,例如 Gemini 2.5 Flash PreviewQwen 3,能根据对话中变化其推理水平(即,不仅仅通过API参数)的角度进行决策(或可控)。然而,它们在该子类别中的共同使用仍然很小,约为1%。

图像生成在质量和符合性提高的情况下变得越来越具有竞争力

  • GPT图像生成(GPT-Image-1) 在4月末在API中推出,并在仅两周内迅速达到了17%的图像生成使用率,反映了其在3月和4月初在ChatGPT应用程序中的 病毒推出
  • 谷歌的 Imagen 3 家族在2025年间的使用增长稳定,从 ~10% 增加到 ~30%,使其与类别领导者黑森林实验室的 FLUX家族 的图像生成模型相平行,后者在4月最后一周的整体占有率约为 ~35%。
  • 图像生成模型的 FLUX家族 在Poe的整体图像生成份额中保持了其总数量份额,但在报告期内轻微下降,从 ~45% 到 ~35%。

Kling 2.0在仅三周内迅速成为视频生成的有力竞争者。 [4]

  • 中国实验室快手发布的 Kling家族 视频生成模型迅速获得了约 ~30%的使用份额,特别是 Kling-2.0-Master,在2025年4月末发布的三周后,Poe的全部视频生成中产生了21%。****
  • 谷歌的 Veo 2 在2月发布后的几个月内保持约20%的强劲使用份额。
  • 定义类别的视频生成先行者 Runway 在报告期间,其视频生成的使用份额下降了约40%,降至约20%。 [5]

ElevenLabs在音频生成中保持领先,尽管竞争的早期迹象正在上升 [6]

  • 在音频生成(特别是文本转语音,或“TTS”)中, ElevenLabs 似乎被用户偏爱,在报告期内满足了约80%的所有订阅者的TTS请求。
  • 然而,在这个领域与 CartesiaUnreal SpeechPlayAIOrpheus 等新兴竞争对手的竞争正在加剧,这些提供独特的声音选项、声音效果和不同的性能及价格结构。

结论

我们希望分享来自Poe多样化用户基础和官方集成的数据,提供有关动态和日益演变的人工智能格局的有价值的现实观点。模型多样性和提供商竞争的增加有助于突显我们平台的价值,对用户和创作者来说都是如此。我们当前观察到推理模型的快速使用增长,并预计这种情况将继续作为领先前沿实验室的主要竞争驱动力。多媒体正在升温,继OpenAI在新图像生成能力中突破性产品之后,我们可能不久将在视频模型中看到类似的成果。

我们期待继续分享这些重要见解,同时捕捉新模式和新兴趋势的迹象。最后,如果您想体验访问我们100多个官方模型集成的库,今天可以在Poe上注册 https://poe.com/。

备注

[1] 所有用户信息均按 Poe 的 隐私政策 处理,其中明确禁止模型提供者将通过 Poe 提交的任何输入用于训练目的。

[2] 我们欢迎任何对我们方法论的评论/批评。所有显示的使用数据均基于 Poe 订阅者。图表中的每个条形代表一周的数据,从周一到周日。所有图表均标准化为百分比份额,以控制随时间变化的订阅者增长。在报告期间,模型点价格可能发生变化,这可能会影响使用情况。对于文本模式分析,发送给 Poe 助手机器人的消息被排除,以反映与命名模型相关的明确用户偏好/需求拉动的精神。

[3] 在文本消息份额图中,GPT-4.1 包含 GPT-4.1GPT-4.1-miniGPT-4.1-nano;GPT-4o 包括 GPT-4oChatGPT-4o-最新GPT-4o-mini;GPT-4 包括 GPT-4-经典GPT-4-涡轮;o1 包括 o1o1-预览o1-mini;o3 包括 o3o3-minio3-mini-high;Claude-3.7-Sonnet 包括所有发送给 Claude-3.7-SonnetClaude-3.7-Sonnet-推理 的消息(无论推理努力如何),而在推理类别中,推理令牌必须设置为非零数才能被包括;Gemini-2.5 包括其 ProFlash 变体;Gemini-2.0 包括 Gemini-2.0-FlashGemini-2.0-Flash-LiteGemini-2.0-Flash-Exp;Gemini-1.5 包括其 ProFlash 变体;Grok-3 包含 Grok-3Grok-3-Mini

[4] 由 Poe 的动画按钮和其他后续操作触发的视频生成在此被排除,以最准确地反映用户偏好/需求拉动的精神。

[5] 截至出版时,Poe 上的 Runway 机器人继续服务于 Gen-3-Alpha-Turbo API 端点,并尚未升级到 Gen-4-Alpha-Turbo 端点。

[6] 由 Poe 的说话按钮和其他后续操作触发的音频生成在此被排除,以最准确地反映用户偏好/需求拉动的精神。