关于技术革命与霸权冲击
中国人工智能企业深度求索(DeepSeek)于2025年初推出的开源大模型DeepSeek-R1,凭借其低成本、高性能的特点,迅速引发国际社会震动。
长期以来,中美两国在人工智能领域的主要矛盾集中在“中方电力资源丰富,美方算力资源充裕”的差异上。然而,DeepSeek通过算法的优化,以GPT二十分之一的成本实现了与OpenAI顶尖模型相媲美的性能,直接挑战了美国长期主导的“算力霸权”模式。传统观念认为,大模型的训练必须依赖大量的经费和算力,而DeepSeek的突破性进展使得许多项目经理难以向投资人解释为何仍需高昂的模型训练费用。这一变革对AI领域的经济泡沫产生了冲击,相关利益方的损失显而易见。
传统AI研发依赖高端芯片的范式被彻底颠覆,英伟达的股价因此暴跌17%,反映出市场对传统硬件依赖型技术路径的质疑。西方媒体将DeepSeek的突破称为“人工智能的斯普特尼克时刻”,类比冷战时期苏联首颗人造卫星对美国的技术威慑。尽管美国试图通过“星门计划”整合西方资源构建数字生态圈,但DeepSeek的算法创新(如参数利用率提升8倍)打破了硬件堆砌的发展逻辑,迫使全球重新评估技术竞争的核心要素。


关于模型使用与比较
在DeepSeek出现之前,笔者常用的是Qwen + ChatGPT的组合,个人主观认为模型分别代表国内外最高水平
下面以个人主观印象作出不全面的讨论与介绍:
ChatGPT(OpenAI)
- openai
- 依旧是公认最强的AI工具,毕竟耗资和研发时间摆在那里
- 中文能力可能差点,但是人家本身就不缺这块市场
Claude
- Anthropic
Gemini
Google
Claude和Google关注不多,但是御三家基本都是领跑的
DeepSeek
- 深度求索
- 深度思考(R1)模式确实很厉害
- 开源创新,加分!
- 低成本的亮点很亮
- “服务器繁忙,请稍后再试。“
通义千问(Tongyi Qianwen)
- 阿里巴巴
- 模型中文能力较一流,适合写报告
- 代码能力较好,一般性人物都可以用,因为国内网络较快
- 支持图文生成、视频理解等多模态任务,但基本没用过(没需求)
智谱(Zhipu AI)
- 清华大学+智谱实验室
- 智谱的开源模型在国内开发者社区中口碑较好,和Qwen一样给人好印象
- 个人感觉综合能力不如通义千问,但是更新迭代许多,现在应该不相上下
Kimi AI
- 月之暗面
- 当时关注是因为首个提出长文本的模型,但是现在模型普遍支持此功能
- 有一段时间在B站等平台经常看到广告,现在好像豆包投流更多(笑
文心一言
- 百度
- 刚开始放国内怎么也是第一梯队
- 听说过和Apple合作翻车的新闻hhh
讯飞星火
- 科大讯飞
- 状况和文心一言差不多的感觉
豆包
- 字节跳动
- 近期好像很火(到处都有广告),但是身边没什么人开发用,可能针对用户群体不同
附录:DeepSeek生成小短篇
1 | # 镜碎星河 |