AI交易大赛还挺好玩阿里的千问赢了,以后恐怕真可以让AI代理炒股

以下摘自自动翻译的新闻:
2025 年 11 月 3 日,Alpha Arena AI 交易大赛正式结束了第一季,Qwen 3 Max 获得了第一名。
Alpha Arena 竞赛汇集了六种尖端大型语言模型 (LLM),包括 Qwen 3 Max、DeepSeek、GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet 和 Grok 4,以测试它们在现实世界金融市场中的交易能力。每个 AI 系统以 10,000 美元的资金开始,并在去中心化交易所 Hyperliquid 上自主执行加密货币永续合约交易,不允许人工干预。
在表现上出现了明显的地区差异:中国模型占据了榜首位置,而美国模型则以大幅回撤告终。
Qwen 3 MAX:+22.3% 回报率(~43 笔交易;胜率 ~30.2%)
DeepSeek Chat V3.1:+4.89% 回报率(~41 笔交易;胜率 ~24.4%)
Claude 4.5: -30.81%
Grok 4:-45.3%
Gemini 2.5 Pro:-56.71%
GPT-5:-62.66%

Qwen 3 MAX:纪律驱动的交易者
Qwen 的成功主要源于严格的执行和明确的战略。在为期 17 天的比赛中,它仅执行了 43 笔交易(平均每天少于 3 笔交易),是所有参与者中最低的。这种低频方法不仅降低了交易成本,而且表明该模型只有在出现高置信度切入点时才会采取行动。
金融模型分析表明,Qwen 严重依赖 MACD 和 RSI 等经典技术指标,并结合严格的止损和止盈规则。它将每笔交易视为类似于算法执行:信号触发→未平仓头寸→达到目标或止损→退出。毫不犹豫。

DeepSeek Chat V3.1:量化专家
DeepSeek 的行为更像是一个量化资产经理,而不是一个对话式人工智能。它保持平均持有期约为 35 小时,92% 的头寸是多头。其夏普比率(衡量风险调整后回报的指标)报告为 ~0.359——是参与者中最好的——表明相对于回报对波动性的控制更好。
其策略:交易数量较少但信念更高,杠杆率适中,并在六种主要加密资产中实现多元化。

失败策略——出了什么问题?
Gemini 2.5 Pro:过度交易、高成本的运营商
Gemini 的垮台源于过高的交易频率和杠杆风险。超过 238 笔交易(每天 ~13 笔)仅在费用方面就产生了 ~1,331 美元的交易成本负担,超过启动资金的 13%。该模型不断进出仓位以应对微小的市场波动,反映出缺乏信念而不是纪律严明的策略。

Grok 4:情绪驱动的 FOMO 交易者
Grok 旨在利用社交媒体情绪(例如,来自 X/Twitter),但最终成为最糟糕的反应易者:在害怕错过 (FOMO) 反弹的高峰期处于完全买入模式,并在市场回调的深处放松。它非但没有中和情绪,反而成为情绪的征兆。

Claude Sonnet 4.5:未对冲的单向多头偏差
Anthropic 的 Claude 模型在整个比赛中持有 100% 的多头头寸,并且没有实施对冲或动态止损机制。当市场在比赛中逆转时,这种僵化的偏见变成了暴露的漏洞。

GPT-5:瘫痪的学者
DeepMind 的 GPT-5 尽管是通用的“所有任务的盟友”,但表现却表现不佳。矛盾的是,它作为对话模型的最大优势(广泛的推理、安全层、避免错误)变成了它在交易中的责任:它犹豫不决。面对相互冲突的看涨和看跌信号,该模型推迟了决策,而不是果断采取行动。正如一位金融专家所说,在交易中,“知道”与在不确定性下做是不一样的。
发表时间 2025-11-07 21:21     来自广东

赞同来自: hugo

0

seeker24680 - 你并不普通

赞同来自:

那你得想想deepseek的老板之前是干啥的
2025-11-10 13:48 来自广东 引用
0

liqiso2004

赞同来自:

阿里的千问底层也是deepseek吧,deepseek量化专家,*
2025-11-07 23:50 来自北京 引用

要回复问题请先登录注册

发起人

问题状态

  • 最新活动: 2025-11-10 13:48
  • 浏览: 961
  • 关注: 7