专家探讨AI炒股梦能否实现，选美股3个月观察其真实投资力

admin AI新闻 2026-05-21 11

让一个极其聪慧的AI半自动帮你来半自动炒股，接着你躺着就能赚到钱，这或许就是好多人的梦想。

那么，这个梦想是可行的吗？AI 的能力边界到底在哪里？

知危找到了伊利诺伊大学计算机系助理教授尤佳轩用来探讨相关问题，知危访谈时间是2025年11月，知危还找到了香港大学数据科学研究所及计算与数据科学学院助理教授黄超用来探讨相关问题，知危访谈时间是2026年1月。

去年接近年末的时候，AI大模型实时投资方面举办的比赛，即Alpha Arena，突然变得非常火爆，然而呢，有两位专家却持有这样的观点，他们觉得该比赛的实验周期实在是太短了，仅仅拥有只有短短两周的时长，与此同时，其观察的对象是加密货币交易，这种交易由于具有较大的随机性，所以并不能够将AI的真实投资能力给展现出来。

所以，他们作出了选择，选择了更具可预测性的美股市场，还选择了更长的实验周期，这个周期是3个月。尽管他们觉得三个月的实验周期实际上远远不足够，根本不足以让模型去经历市场完整的周期性波动，而且未来的改进空间还极为大，但他们依旧得出了有趣的观点。

他们持有这样的观点，即在金融交易市场当中，大模型更像是那种厌恶风险且偏好价值投资的“巴菲特”，并非是那种分分钟就进行数百次换手操作的量化机器。

而后，我们依据他们的研究成果开始，聊一聊让AI去投身炒股这种事情，彻彻底底地、认认真真地聊一聊。

500

尤佳轩在 Alpha Arena 发布之前几个月也就是 2025 年 5 月就启动了 LiveTradeBench 项目，并在 8 月就对外公布了该基准测试。（项目地址：https://github.com/ulab-uiuc/live-trade-bench ）

对于这个意在借助金融市场上的表现去评估AI能力的项目，尤佳轩向知危讲道，“当前的大模型Benchmark处于非常静态的状态，极易被过拟合，甚至还会被定向优化。坦率而言，好多大公司在开展大模型开发工作时，或多或少都会针对这些榜单展开优化。”。

那哪样的基准更难以被定向优化呢？自然是面向未来的预测任务喽。要是一个模型能够出色地预测未来，就算它对这样的基准进行定向优化了，本质上也表明它已然具备了对某一领域开展建模的能力。

在股市这般的市场之中，要是模型能够达成近乎完美的预测，那么从某种层面来讲，就等同于对人类社会开展了高度的仿真，在这一重点要点之上，我们甚至感觉它有几分类似“图灵测试”的意义。

坐在的团队是黄超所在的，其做了 AI-Trader Benchmark，该项目有 18K 的 Stars，地址为 https://github.com/HKUDS/AI-Trader，希望了解 AI Agent 在金融场景的实际能力水平，“我们在做 AI Agent 的过程中，已经测试了很多不同场景。一个核心问题是：有没有一个场景，能够更真实地评估 Agent 的能力，而不是停留在相对理想化的设定里。”。”

黄超又进一步说道，基于如此思路，我们给出了好些筛选标准，其一，此场景必定得是实时动态的，最好是每日都有所变化，毕竟那时好多AI模型以及Agent的评测环境，从本质上来讲是静态的，这会对其真实能力的判断形成限制，并且也不太契合现实世界的复杂性，其二，这样的场景务必足够复杂且具备不确定性，也就是说，其变化并非简单、有规律的，像车流量或者人流量那般有着显著周期性，而是受多种因素作用，具备较强随机性。第三，此场景要求能够被量化来进行评估，有一些现实现象尽管同样是动态且复杂的，像是人的情绪，然而却极难凭借客观指标去衡量其好坏，这对开展系统性的评估是不利的。

遵照这些标准，这般我们最后确定了金融场景，特别是股票市场，此领域自然符合这些条件。

尤佳轩还表示，要是大模型可以在市场里头获取那所谓的Alpha，换句话讲就是借助交易去获取利益并且跑赢大盘开云真人app,开云真人app地址，这本身其实就是大模型、智能体落地的一个挺不错的方向。

在市场选择这个方面，尤佳轩做出的抉择是选取了美股，黄超团队所带领的那一众人等抉择亦是美股。

尤佳轩朝着知危示意着讲道，美股自有几个颇为显著的优势，其一，它的接受程度极为广泛，好多人自身便具备股票交易之前所积累的经验，其二，它属于一个有着严格监管举措的市场。我们能够大概进行假设，交易者仅仅能够借助公开的那些信息。当然，内部信息出现泄露这种情况或许是存在的，然而从理论层面来讲，这是违反法律规定的，形成规模去进行操作的概率是很低的。

股票市场有着一个重要优势是，存在显性的或者现成的market baseline，其中，market baseline指的是美股的大盘ETF，像标普500，还有纳斯达克指数。

黄超称，最初我们从美股着手，因期望选个相对理性、受基本面驱动更强的市场。对于AI Agent而言，它更擅长整理、分析与归纳大量信息，像是新闻、财报、市场观点等，接着基于这些信息做决策。所以，一个对基本面依赖更高的市场，更适宜当作初始实验环境。并且，美股的情绪波动相对没那么极端，整体来讲情绪驱动的影响会小一点。此外，它在时间方面所具有的敏感性，并非如加密货币那般强烈，并非是等同于那种达到秒级、分钟级会产生剧烈波动的市场。这一要点极为关键，是由于当下 Agent 在高频交易这一类型，针对时效性有着极高要求状况的任务上并不擅长。”。

500

历经快要接近三个月的实盘观察，这尤佳轩的研究团队，积累下了好多颇为深刻的洞见，“从得出的结论方面来看，存在一点相对遗憾的情况，此些大模型，并没有做到在长时间内超越大盘。”。

例如一周，或者一个月，甚至两个月这样的短时间内，GPT、Claude、Grok在特定时间里的确实现了领先大盘，然而一旦测试时间拉长，特别是金融市场开始出现动荡之后，它们便渐渐落后了，未能持续战胜市场。

初步可得结论，于较长的时间周期之中，要使得大型模型的交易持续不断地超越市场，这依旧是极为困难的。

在此处，知危编辑部需插说一句，这里的跑不赢大盘，与当时的市场状态存在关联，并非全然意味着AI能力欠佳，大模型在研究周期里跑不赢大盘，其缘由在下文存有客观的答案。

首先阐述第二个观察，那就是，模型能力跟夏普比率存在一定相关性，而夏普比率呢，简单来说，是指每承担一份风险所对应的收益情况，它被用来衡量投资是否具备性价比，然而这种相关性并不高。接着说明，那些能力越强的模型，相对而言收益率通常较高，可是数据噪声也是极其大的，当然啦，这也跟我们所预期的相吻合。

可调用充分工具的我们给模型了，那种类包含市场新闻、社交媒体舆情、股票基本面数据等。相较于仅考虑时间序列数据情形而言呀，要是考虑更多系统化数据的话，能力更为强些的模型是能够更好地凭借这些信息来开展预测的。

我们另外开展了一项极为重要的，对照性质的实验。要详细说明的话，我们将模型能够获取到的，最新的市场数据，像最新新闻这类，进行了屏蔽操作，之后对比存在新闻以及不存在新闻的情形下，长期交易最终结果所呈现出的差异。最终得出的结果是，对于大多数的模型而言，屏蔽掉这些数据会致使交易效果出现下滑态势，这表明最新的市场信息对于模型表现，存在著显著的影响。

总体而言，我们针对20 个大模型，历经了约三个月的实测数据剖析，大体上证实了若干结论：模型的确能够借助最新新闻实现更优交易，这具备一定的证据支撑。显而易见，人类交易员做决策同样需要参考新闻，而非仅仅关注股票走势。短期内跑赢大盘相对易行，然而在长期（诸如三个月左右）持续跑赢大盘依旧极为艰难。在能够运用工具调用的情形下，模型能力越强，交易水准通常也就越高。

拓展交易相关数据源的数据层面，是黄超的研究团队所为，如此一来，Agent 便可看到更为丰富的信息，进而支持更为全面的决策，“我们同样在剖析，AI 于怎样的交易场景里更具优势？一个相对明晰的结论是，在倾向基本面驱动的投资场景之中，AI 的表现更为强劲。诸如一些蓝筹股，一般被视作基本面较好：当下的表现稳定，未来的预期亦是不错，这便属于典型的基本面分析逻辑。”。

有一个发现，它相对而言比较具备趣味性，那就是：那些展现出较好表现的模型，其总体策略并非呈现出激进的态势，反而是偏向于稳健的风格，其持仓状况较为分散，交易的频率并不高，愈发看重风险的把控，实际上这一点与众多优秀的人类交易员自身的风格存在相似之处，并非借助高频或者高风险的策略来获取胜利。

又比如说，在早期的那些实验里头，有着相对比较出色表现的DeepSeek，就其整个的profile而言，同样是一种偏向于稳健、注重控制风险的策略。所以，从最终显现出来的结果去看，在美股这样的一种市场环境下面，要是AI希望能够在长时间里拥有突出的表现，那么更为关键的自身能力大概是具备抗风险的能力，而并非是把赌注全都集中在某一个单单狭窄的方向之上。当然咯，在短时间之内是很难判定究竟哪个模型会更具优势。

其一，保守策略对收益表现有益，其二，尤佳轩察觉到，一大批模型的整套交易风格其实全都偏向于保守，“我们设定大模型在管理资产组合之际，能够自行挑选现金与股票的占比。在重大事件来临前，特别是财报日，多数模型会选择持有更多现金，展现出偏保守的交易风格。再者像25年10月份的美联储降息，当时降息的幅度实际上未达预期，人们那时觉得能降50基点开云app在线入口,开云真人官方下载，可实际上仅降25个基点。”。在那一日，诸多大型模型都会抉择使其仓位呈现空缺状态，甚至于在美联储宣告降息的前一日，它们便已着手降低仓位了。

这在一定程度上说明了为何在实验阶段，多数模型于长期收益方面未能战胜大盘，在美股彼时的牛市情形下，持有现金意味着会错失一部分收益，然而这种保守的风格也极有可能成为一种优势，比如说在未来出现幅度较大的下跌或者经历长期回撤之际，模型有存在反超大盘表现的可能性。

从原因方面来讲，这跟大模型的训练以及提示词设置（或者说是人设）存在关联，大模型默认被设定为理性、负责任的人类助手，在post-training和alignment过程当中被塑造成为中立、保守、负责任的角色，而非激进风险承担者，举例来说，它不会去执行危险或违法的请求，这种保守性自然而然地延伸到交易决策里面。

黄超称，到2026年1月时，我们的平台已然持续运行三个多月了。有一个颇为有意思的现象是，在美股市场当中，大多数的AI是盈利的，其整体表现相对稳定，只是GPT - 5的表现相对较差。然而在A股市场，情形显著不一样。从整体去看，AI基本上没有获取明显收益，策略表现也更为随机一些。

往更深入去瞧，不一样的模型于美股市场当中，也会展现出各异的风险管理风格。较为激进的那种风格，其典型的呈现方式是有着“大开大合”特征的操作。就好比有一个极端的实例，当模型接收到某些特定信息之后，会突然间判定风险有所上升，紧接着就把手中持有的仓位全部抛售出去，待到行情好转之时，又以极快的速度全部重新买入。像这样全进全出的操作行为，会招致相当大的波动以及风险。另外还有一个特性是频繁地进行短线的操作，模型会依据当下所做出的判断持续地开展买卖动作，企图去捕捉短期的波动情况。然而这种高频次地进行短线交易的做法，通常会对整体的表现造成负面的影响。”

在美股市场里，知危观察到一个现象，讲的是AI-Trader，挺有意思的，就是每一个模型的收益曲线，虽有高低不同之分呀，可整体形状大致都差不多，针对此，黄超作出解释，说这些模型的持仓呢，大部分都是众多科技行业的巨头公司，像Nvidia、Google、Microsoft、Tesla这些，配置比例较高，不同之处在于各自在持仓的结构方面，在买卖交易的频次方面，以及在每次交易的金额方面，正是这些因素导致最终收益出现差异。整体来看，AI 们都比较看好科技板块。”

从语言信息里获取的大模型，更多的是有关市场结构和市场情绪的信息，像产业链构成，公司所处的行业位置，还有当下的市场情绪开云app官方最新下载地址，这些信息能够协助它剖析当前表现与未来走势，本质上仍旧倾向于基本面分析。

当前，可看出AI的投资表现，于一定程度上展现出价值投资这一特性。若从高层次观察，像那种长期投资、价值投资等理念，AI是颇为契合的，且在该方向更具专长，并非短期的趋势交易。缘由在于，AI更倾向于开展深度研究，会实施较为全面的信息收集与分析，进而判定哪些标的适宜投资，哪些短期内或许存有风险。基于此来做决策，更相称于长期投资的逻辑。相对而言，短期的交易，更加依赖高频的情况，以及低延迟的状况，还有快速反应的情形，在这一领域，目前人工智能并不占据优势。”。

那尤佳轩得出了基本相同的判断，并且早有假设，在启动这个项目的时候，我们内部有过类似的比喻，大模型未来会更偏向于像巴菲特式的决策者这般，而并非作为用来直接跟现有量化公司进行高频对决的工具。

从本质上来说，大模型并不适宜高频交易，而是更适合中低频交易。它在交易里能够展现出较好的表现，其背后有缘由存在，那就是凭借训练它已吸纳了公开信息里近乎全部的人类知识Token。因而，大模型对于人类社会的运行模式具备一定的理解以及认识，但是这些规律自身在短期内波动幅度极大，噪声相当多。所以，让大模型去进行短期判断或者应对突发事件，事实上是极为困难的。

尽管在短时间之内，市场会遭受情绪、泡沫等诸多因素予以的影响，举例来讲恰似2000年出现的互联网泡沫，又或者是如今有人声称的AI属于泡沫的这种情况，这些情形将致使短期的判断背离规律，然而人类社会的长期演进规律是不会因为个体的意志而发生改变的。

市场常常展现出为期较短的情绪周期，然而产业的发展却是呈长周期态势的，哪怕是人工智能产业亦是如此，“市场相对而言短视，人们在意的是账户在短期内的变动情况，极易受到情绪的左右。市场的走向也易于被那些被高估的一些短期事件给影响到。”。

产业发展周期乃是长期的进程，长期趋势能够过滤掉某些短期情绪，故而大模型于分析产业发展之际也能够给出颇为不错的深刻见解，当然在进行长期投资分析之时，榜单以及策略验证周期将会远远更为漫长。

比如，就拿巴菲特来讲，他去买卖一只股票普遍得耗费很长的周期，也许是十年，甚至会更久。前段时间，他把大量的苹果股票给抛售了，然而在当时买入的价格或许仅仅是如今的十分之一，在持有了好多好多年之后，才开始在最近这段时间进行抛售。

他近来还购入了大概50亿美元价值的谷歌股票，这乃是在他以往几乎从不购买科技股情形下的重大举动。谷歌股价实现翻番之后他依旧买入。短期内看似是在高位接手，然而从长期视角来看或许是极为正确的抉择，谷歌有可能代表着未来人工智能以及通用人工智能落地的关键方向。

换个角度去看，大模型面对产业发展说不定会有着相当不错的认知，然而要对此加以验证很有可能得花费五年，甚至可能需要长达十年的这样一个时间段。

所以当下仍处于极为早期之时段，大模型往后是否能够如同巴菲特那般，这尚属一种假设，然而我个人却是秉持相信之态度的。

倘若真的如同前面文章所讲的那般，AI进行炒股并非强大到能让大家想象的程度如它可以使其让着去盈利，那么它的那些受到限制的地方究竟是在哪些方面呢？它有存在什么样的局限之处呢？

首先，AI 针对数字有着超乎寻常的敏锐度，给定各异的本金状况下，它依照自身特性会分别抛出不同的策略。尤佳轩朝着知危这般说道：“一旦你向它传达有 1 块钱这种额度，或者告知其有 100 块钱的金额，又或者透露拥有 1 万块钱的数目，甚至是表明存有 1 亿块钱的数量时，它所做出的决策定然会展现出显著的差异，会因为绝对数值的作用而产生波动。”。

然而这事是能够予以解决的。尤佳轩那整个的团队针对全部的指标都实施了归一化的处理举措。且具体讲来嘛。则是将股票的交易行为转变成为了针对好多只股票的比例分配进程。就比如说存在二十支股票之时。每一支股票的权重最小是零。最大是一。并且全部股票的权重加总起来是一。也就是归至一这个状态。如此这般该模型所关注的便是持仓比例了。而非具体的交易金额了。

第二个弊端是，前面文字提及的 “AI 大模型不太适宜从事类似量化的高频交易”。大模型相对而言擅长进行基于语言信息的产业分析以及价值投资，然而金融市场相当一部分信息是由时序数据构成的，像股价之类，这实际上是大模型天生不擅长的领域。

黄超称，AI Agent从事一次行业剖析、产出报告，常常要十几分钟，在这般时间跨度下市场已然产生极大变化，故而它所生成的报难以运用于高频交易，它更多是依据信息解析，进而做出决策，并且这个决策周期更适配美股。

尤佳轩称，于金融机构的实际运用里，它们虽已开始采用大模型，然而实际的交易策略大体上并非基于大模型。这是由于大模型真正能够撰写出策略或者直接进行交易是在近一两年方才开始兴起的。

举例来讲，在公司发布财报之际，存在一些机构，会以实时的方式，运用大模型去剖析财报信息，进而展开推理，就像在CEO公布数据的那一刹那，模型便会对这些数字有可能会对未来股票走势所产生的影响进行分析，这其中涵盖了对财报内容的理解。除此之外，有一些企业会公布经营预测，诸如产品销量或者市场前景分析等，借助大模型来判断这些信息对于股票未来走势的影响，这同样是一种颇具价值的应用。

然而，从整体上来进行考量，于实际能够称得上是交易策略的情形之下，运用大模型的公司依旧只是占据少数的部分。大部分的机构依旧是依靠自身在内部已经发展成熟的系统，大模型主要是被用于去提供额外的特征，以此来辅助进行决策，这便是当下所呈现出的典型的使用方式了。

于做分析一事，他们常常会运用更具传统意味的机器学习模型。当下的量化交易体系，从本质层面来讲，是构建于统计学方法以及传统机器学习模型之上的。这些模型存在着一个相当大的优势，其计算效率极为偏高，能够达成毫秒级别的交易执行，或者甚至是更低延迟的交易执行。

相比起来，大模型的推理速度常常是秒级，甚至是分钟级，就高频交易而言，这基本上是行不通的。

先说效率问题，成本问题同样是大模型不太适用于量化的缘由，尤佳轩讲：“要是在真实交易里持续运用大模型去做推理。”“那么成本会特别高。”“所以从成本这个角度来讲。”“在实际应用当中。”“大模型依旧是更为适宜当作辅助工具。”。

存在着这样一个有趣的局限性呢，即，AI大模型在某些时候，没办法很好地弄明白股市里的“结构关系”。比如说，有一只股票出现了下跌的情况，另外几只股票也随之跟着下跌，而这些公司之间常常存在着上下游关系，要不然就是有其他的供应链关系。

尤佳轩告知我们的是，在现实状况里，要是使得大模型将所有的这些关系信息予以输入状态，哪怕是那种具备长上下文的大模型，也是没有办法较为良好地去进行这种处理的，计算成本呈现出高昂的态势并且效率比较低，与此同时模型的性能还会出现大幅度的下降情况。

不过，他们正借助“图学习”的方式对这一点予以优化，他表明，“图学习的优势在于其在结构化数据里开展信息传播。具体而言，我们能够先单独针对每一只股票去做分析以及推理，接着在图上于这些股票之间构建更高层级的数据交互。也就是说，在大模型对每只股票进行分析的基础之上，再运用图神经网络针对这些分析结果实施更广范围的传播。这种传播过程成本低廉，无需耗费大量token，便能够将各股票之间的关系有效整合。”。这儿存在着我们往后的愿景，由点至面拓展，将个别股票的剖析成果凭借图结构挨个儿串联起来，把相关的指标以及标的相连在一起，最后变为达成更周全的判断。

最后，有一点是最值得予以留意的，在当下关于AI大模型炒股的相关研究里，AI均未曾经历过大牛熊的检验，因而它具备诸多潜在的、尚未被发觉的局限性。

尤佳轩表示，我们的实验时长为三个月，然而这依旧是相对短暂的。我觉得，唯有历经完整的市场周期，涵盖恐慌期、乐观期以及正常期，模型的长期表现才具备真正的参考价值。而这样的一个过程，往往要持续一年甚至更长的时间。

而在金融场景下，这种未知的局限性，可能往往是最致命的。

但凡是希望这篇文章能够使得您对于AI炒股的能力边界拥有更为良好的了解，然而这却并非是知危鼓励您去进行尝试。

事实上，有关这方面的研究的目标并非实实在在是为了借助交易去获取钱财，而是期望凭借金融市场当中的交易这个行为，以此来对模型自身进行评估。

恰似尤佳轩朝着知危讲的那般：“开展大模型交易的实质，是构建模型以及领会人类社会运行的状况。”。

这同样是他们把项目进行开源的缘由，“人类社会不是仅靠一人便可领会的。仅仅依靠一个实验组或者公司之中的某一个，是没办法达成全面建模这项任务的，必须要有整个社区大范围地参与进来，贡献自身力量，并且把所取得的成果反馈给社会，才能够切实构建起完整的理解。”。

他宣称，如果仅是一个团队单独去开发算法，对所有信息予以保密，最终即便赚到钱那也是属于零和博弈，其本质就是在收割散户们的钱财。

标签： AI炒股美股市场投资能力专家访谈投资理念