芝大论文评释GPT-4选股准确率高达60%, 东谈主类股票分析师要下岗?

发布日期：2024-05-29 14:49 点击次数：203

【新智元导读】GPT-4在为东谈主类选股时，弘扬果然杰出了大部分东谈主类分析师，和针对金融磨砺的专科模子？在莫得任何波折文的情况下，它们径直就到手分析了财务报表，这一发现让好多业内大咖恐慌了。然则长此以往，有AI大牛指出商榷中的bug：之是以会这么，很可能是磨砺数据被浑浊了。

最近，诸君业内大咖齐被芝大的一篇论文恐慌了。

商榷者发现，由GPT-4帮手选拔的股票，径直打败了东谈主类！同期也pk掉了好多其他针对金融磨砺的机器学习模子。

最让他们恐慌的是，LLM不错在莫得任何讲演波折文的情况下，就到手分析财务报表中的数字！

论文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

具体来说，在预计收益的变化上，LLM比素养丰富的金融分析师齐更出色。尤其是在选股时，东谈主类分析师会濒临一些难以卤莽的场景，导致预计收尾存在偏见、后果低下，这时LLM就弘扬出了宏大的上风。

况且，LLM作念出的预计，不单是是回忆磨砺数据，比如GPT-4提供的有瞻念察力的分析，以致能揭示一家公司将来潜在的弘扬。

GPT-4的弘扬一骑绝尘，径直比其他模子结束了更高的的夏普比率（Sharpe ratio）和阿尔法（alpha）。

沃顿商学院评释Ethan Mollick盛赞：这是一篇世东谈主翘首以盼的论文。

也有网友感叹谈：以后在股市中操盘的，是东谈主如故AI齐不好说了……

然则，就在各人鼎沸之时，有提防的商榷东谈主员给这项商榷泼了冷水：之是以能取得这个收尾，很可能是由于磨砺数据的浑浊变成的。

AI大牛田渊栋也示意，GPT-4的优异弘扬，不摈斥是磨砺数据围聚包括了将来的股票价钱，因此GPT-4径直开了挂，据此对2021年起的股票样本进行了选拔。

至于测试GPT-4是否开了挂，表面上并不复杂：只消获取股票的历史记载，将其重定名为某个新代码，将其输入来测试就不错了。

商榷内容

若何预计LLM在将来方案中的作用？在这项商榷中，商榷者预计的圭臬，就是让LLM进行财务报表分析（FSA）。

之是以进行FSA，主如果为显明解公司的财务健康气象，并细则其功绩是否可抓续。

FSA并不简短，它是一个定量任务，需要多量分析趋势和比率，还波及批判性念念维、推理才略和复杂判断。往常，这个任务是由金融分析师和投资专科东谈主士来完成的。

在商榷中，商榷者会将两份圭臬的财务报表——金钱欠债表和损益表扔给GPT-4 Turbo，它的任务是：分析公司接下来的收益是会增长如故下落。

扎眼，这项商榷中有一个要津的想象，就是毫不向LLM提供任何文本信息，LLM能参考的，只消隧谈的报表。

商榷者预计，LLM的弘扬，能够率会比专科的东谈主类分析师差。

原因在于，分析财务报表这项任务，非常复杂，波及好多迟滞性的东西，需要很大学问、直观和东谈主类念念维的纯真性。

而且，LLM现在的推理和判断才略还很不及，况且也浮泛对于行业和宏不雅经济的相识。

另外，商榷者还预计LLM的弘扬也会弱于专用的机器学习应用，比如为收益预计的东谈主工神经网络（ANN）。

因为，ANN允许模子学习深头绪的交互，这些交互中包含了进攻陈迹，通用模子是很难获取这些陈迹的。除非，通用模子能基于不完整的信息，或从未见过的情景，进行直观推理、形成假定。

实验收尾却令他们大吃一惊：LLM果然pk掉了好多东谈主类分析师和专用的神经网络，弘扬出了更优异的成绩！

实验设施

评测LLM的具体弘扬如何，需要从以下两个设阐述开。

领先，商榷东谈主员对公司的财务报表进行匿名化和圭臬化处分，防范LLM记取公司的潜在可能。

独特是，他们从金钱欠债表和损益表中，省去了公司的称呼，并用标签（如t和t-1）替换年份。

此外，商榷者还按照Compustat的均衡模子，圭臬化金钱欠债表和损益表的风景。

这种设施，不错确保财务报表的风景，在系数公司年度统计中齐是雷同的，因此LLM也不知谈其分析对应的是哪家公司或哪个时辰段。

在第二阶段中，商榷东谈主员想象了一个指示，交流LLM进行财务报表分析，并细则将来收益标的。

除了简短的指示外，他们还栽种了一个CoT指示，践诺上是「教」LLM以东谈主类金融分析师的念念维历程进行分析。

具体来说，金融分析师在分析中会识别财务报表中显贵的趋势，筹画要津财务比率（如诡计后果、流动性和杠杆比率），详尽这些信息，并形成对将来收益的预期。

商榷东谈主员创建的CoT指示，即是通过一系列设施，来结束这个念念维历程。

在数据集继承上，商榷东谈主员使用Compustat数据库来测试模子的弘扬，并在必要时与IBES数据库交叉使用。

样本涵盖了从1968-2021年之间，15401家公司的150678个公司的年度数据。

分析师的样本涵盖了1983-2021年本事，包含3152家公司的39533个不雅察数据。

LLM为如何此到手

对于这个收尾，商榷者淡漠了两种假定。

第一种假定是，GPT的弘扬透澈是由近乎完整的操心启动的。

GPT很可能是从数据中猜测出了公司的身份和年份，然后将这些信息与新闻中学到的对于该公司的情感相匹配。

为此，商榷者试图摈斥这种可能。况且，也使用了GPT-4磨砺期除外的全新数据，复制了收尾。

第二种假定是，GPT之是以能猜测出将来收益的标的，是因为生成了灵验的看法模子。

比如，模子常常司帐算金融分析师筹画的标注比率，然后把柄CoT请示生要素析这些比率的讲演。

为此，商榷者将模子为给定公司年度生成的系数讲演汇总，并使用BERT将它们编码成768维向量（镶嵌），然后将这些向量输入到ANN中，并磨砺它预计将来收益的标的。

收尾，基于GPT讲演看法磨砺的ANN达到了59%的准确率，这真实与GPT的预计准确率（60%）一样高。

这一收尾径直评释，模子生成的讲演看法对将来弘扬具有信息性。

另外不错不雅察到，GPT的预计与基于GPT讲演的ANN预计之间，有94%的相关性，这就标明，这些讲演编码的信息是GPT预计的基础。而在解释将来收益方进取，与比率分析相关的讲演最为进攻。

总之，模子之是以弘扬优厚，原因就是来自于基于CoT推理生成的讲演。

实验收尾

最新商榷中的实验评估收尾，不错总结为以下三大亮点。

GPT胜过东谈主类金融分析师

为了评估分析师的预计准确性，商榷者筹画了「共鸣预计」（即财务报表发布后一个月内各个分析师预计的中位数），并将其当作下一年收益的预期。

这确保了分析师预计和模子预计收尾的可比性。

此外，作家还使用了使用将来三个月和六个月的「共鸣预计」当作可替代的预期基准。

这些基准对LLM不利，因为它们整合了一年中所获取的信息。不外，接洽到分析师可能在将新信息纳入预计时较为迟缓，商榷者选拔回报这些基准以供比较。

商榷东谈主员领先对GPT在预计将来「收益标的」方面的弘扬进行了分析，并将其与证券分析师的弘扬进行了比较。

他们扎眼到预计每股收益（EPS）变化是一项高度复杂的任务，因为EPS时辰序列近似于「Random Walk」（随即游走）况且包含多量弗成预计的要素。

随即游走反馈了，仅把柄刻下收益与之前收益比拟的变化的预计。

下图展示的是GPT和东谈主类金融分析师的预计性能对比收尾。

收尾瓦解，第一个月分析师的预计，在预计将来收益标的方面的准确率为53%，这跳跃了简短模子（将前一年的变化外推）的49%准确率。

而分析师三个月和六个月后的预计准确率，差异为56%和57%，这是合理的，因其包含了更实时的信息。

基于「简短」非CoT请示的GPT预计弘扬为52%，低于东谈主类分析师基准，这与商榷者预期一致。

然则，当使用CoT模拟东谈主类推理时，他们发现GPT的准确率达到了60%，显贵高于分析师的弘扬。

如果再去核查F1-score（F1评分），这是一种评估模子预计才略的替代主见（基于其精准度和调回率的组合），也会得出访佛的论断。

这标明，在分析财务报表以细则公司发展标的方面， GPT彰着打败了中位数金融分析师的弘扬。

坦荡讲，东谈主类分析师可能依赖于模子无法获取的软信息或更庸俗的布景，从而增多了价值。

如实，商榷东谈主员还发现分析师的预计包含了GPT未捕捉到的，对于将来弘扬的灵验看法。

此外，商榷瓦解，当东谈主类难以作念出将来预计时，GPT的看法更有价值。

同样，在东谈主类预计容易出现偏见或后果低（即未合理纳入信息）的情况下，GPT的预计在预计将来收益标的方面更灵验。

GPT与专用神经网络不相波折

商榷东谈主员还比较了GPT和多样ML模子的预计精度。

他们继承了三种预计模子。

第一个模子「Stepwise Logistic」（慢慢归来），慑服Ou and Penman框架，使用了59个财务主见预计变量。

第二个模子是，使用雷同59个预计变量的ANN但也专揽了它们之间的非线性和交互。

第三，为了确保GPT和ANN之间的一致性，商榷东谈主员还使用了，基于提供给GPT的雷同信息集（损益表和金钱欠债表）磨砺的ANN模子。

进攻的是，商榷者基于每五年的历史数据使用 Compustat 的不雅察数据来磨砺这些模子。系数预计齐是样本外的（out of sample）。

使用系数Compustat样本，商榷发现「慢慢归来」的准确率（F1评分）为52.94%（57.23%），这与东谈主类分析师的弘扬相配，况且与之前的商榷一致。

比拟之下，使用雷同数据磨砺的ANN达到了更高的准确率60.45%（F1评分61.62%），这处于动身点进的收益预计模子的规模。

当使用GPT（with CoT）预计时，发现模子在系数样本上的准确率为60.31%，这与ANN的准确率非常接近。

事实上，GPT的F1评分显贵高于ANN（63.45% vs. 61.6%）。

此外，当商榷东谈主员仅使用两份财务报表的数据（输入到GPT中）磨砺ANN时，发现ANN的预计才略略低，准确率（F1评分）为 59.02%（60.66%）。

总体而言，这些收尾标明GPT的准确率与动身点进的专用机器学习模子的准确率相配（以致略高）。

ANN和GPT预计互补

商榷东谈主员进一步不雅察到，ANN和GPT的预计具有互补性，因为它们齐包含灵验的增量信息。

况且有迹象标明，当ANN弘扬欠安时，GPT时时弘扬精湛。

独特是，ANN基于其在夙昔数据中看到的磨砺示例来预计收益。况且，鉴于好多示例非常复杂且高度多维，其学习才略可能受到放胆。

比拟之下，GPT在预计袖珍或亏空公司的盈利时，犯的误差相对较少，可能收货于其访佛东谈主类的推理和庸俗的知识。

除此除外，商榷者还进行了几项额外的实验，基于GPT对其谜底的置信度对样本进行分区，并使用了不同的LLM家眷。

当GPT以更高的置信度修起时，预计时时比置信度较低的预计更准确。

与此同期，商榷评释了这一收尾不错实施到其他大模子上。独特是，谷歌最近发布的Gemini Pro，其准确率与GPT-4 不相波折。

下图瓦解了，GPT响应中，双词（bigram）和单词（monogram）的频率统计。

这里，双词指的是由两个流通的单词构成，在文本中系数使用；单词指的是一个单词。

图左展现的是「双词」的收尾，GPT对于财务比率分析的谜底中发现的十个最常见的「双词」。

图右列出的是，GPT对二元盈利预计（binary earnings predictions）中，出现频率最高的十个单词。

之是以作念这项分析，是为了细则GPT在不同财务分析环境中，使用最常见的术语和短语。

意念念的是，「贸易利润率」（Operating Margin）和「增长」（Growth）这两个词的预计力最高。

看来，GPT似乎也曾内化了「40端正」。

总之，系数收尾标明，AI加快发展，金融分析师的变装将会转换。

弗成否定，东谈主类专科知识和判断力不太可能在短期内被透澈取代。

但像GPT-4这么遒劲的AI器用可能会极地面增强和简化分析师的使命，以致可能在将来几年里，重塑财务报表分析这一范畴。

上一篇：股票MACD配什么贪图最佳? 我用这招圮绝了钞票解放! 马上学起来!
下一篇：创业板玩法全揭秘! 四大战法毫无保留共享

友情链接：

芝大论文评释GPT-4选股准确率高达60%, 东谈主类股票分析师要下岗?

栏目分类

热点资讯

相关资讯