芝大论文评释GPT-4选股准确率高达60%, 东谈主类股票分析师要下岗?

发布日期:2024-05-29 14:49    点击次数:203


【新智元导读】GPT-4在为东谈主类选股时,弘扬果然杰出了大部分东谈主类分析师,和针对金融磨砺的专科模子?在莫得任何波折文的情况下,它们径直就到手分析了财务报表,这一发现让好多业内大咖恐慌了。然则长此以往,有AI大牛指出商榷中的bug:之是以会这么,很可能是磨砺数据被浑浊了。

最近,诸君业内大咖齐被芝大的一篇论文恐慌了。

商榷者发现,由GPT-4帮手选拔的股票,径直打败了东谈主类!同期也pk掉了好多其他针对金融磨砺的机器学习模子。

最让他们恐慌的是,LLM不错在莫得任何讲演波折文的情况下,就到手分析财务报表中的数字!

论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

具体来说,在预计收益的变化上,LLM比素养丰富的金融分析师齐更出色。尤其是在选股时,东谈主类分析师会濒临一些难以卤莽的场景,导致预计收尾存在偏见、后果低下,这时LLM就弘扬出了宏大的上风。

况且,LLM作念出的预计,不单是是回忆磨砺数据,比如GPT-4提供的有瞻念察力的分析,以致能揭示一家公司将来潜在的弘扬。

GPT-4的弘扬一骑绝尘,径直比其他模子结束了更高的的夏普比率(Sharpe ratio)和阿尔法(alpha)。

沃顿商学院评释Ethan Mollick盛赞:这是一篇世东谈主翘首以盼的论文。

也有网友感叹谈:以后在股市中操盘的,是东谈主如故AI齐不好说了……

然则,就在各人鼎沸之时,有提防的商榷东谈主员给这项商榷泼了冷水:之是以能取得这个收尾,很可能是由于磨砺数据的浑浊变成的。

AI大牛田渊栋也示意,GPT-4的优异弘扬,不摈斥是磨砺数据围聚包括了将来的股票价钱,因此GPT-4径直开了挂,据此对2021年起的股票样本进行了选拔。

至于测试GPT-4是否开了挂,表面上并不复杂:只消获取股票的历史记载,将其重定名为某个新代码,将其输入来测试就不错了。

商榷内容

若何预计LLM在将来方案中的作用?在这项商榷中,商榷者预计的圭臬,就是让LLM进行财务报表分析(FSA)。

之是以进行FSA,主如果为显明解公司的财务健康气象,并细则其功绩是否可抓续。

FSA并不简短,它是一个定量任务,需要多量分析趋势和比率,还波及批判性念念维、推理才略和复杂判断。往常,这个任务是由金融分析师和投资专科东谈主士来完成的。

在商榷中,商榷者会将两份圭臬的财务报表——金钱欠债表和损益表扔给GPT-4 Turbo,它的任务是:分析公司接下来的收益是会增长如故下落。

扎眼,这项商榷中有一个要津的想象,就是毫不向LLM提供任何文本信息,LLM能参考的,只消隧谈的报表。

商榷者预计,LLM的弘扬,能够率会比专科的东谈主类分析师差。

原因在于,分析财务报表这项任务,非常复杂,波及好多迟滞性的东西,需要很大学问、直观和东谈主类念念维的纯真性。

而且,LLM现在的推理和判断才略还很不及,况且也浮泛对于行业和宏不雅经济的相识。

另外,商榷者还预计LLM的弘扬也会弱于专用的机器学习应用,比如为收益预计的东谈主工神经网络(ANN)。

因为,ANN允许模子学习深头绪的交互,这些交互中包含了进攻陈迹,通用模子是很难获取这些陈迹的。除非,通用模子能基于不完整的信息,或从未见过的情景,进行直观推理、形成假定。

实验收尾却令他们大吃一惊:LLM果然pk掉了好多东谈主类分析师和专用的神经网络,弘扬出了更优异的成绩!

实验设施

评测LLM的具体弘扬如何,需要从以下两个设阐述开。

领先,商榷东谈主员对公司的财务报表进行匿名化和圭臬化处分,防范LLM记取公司的潜在可能。

独特是,他们从金钱欠债表和损益表中,省去了公司的称呼,并用标签(如t和t-1)替换年份。

此外,商榷者还按照Compustat的均衡模子,圭臬化金钱欠债表和损益表的风景。

这种设施,不错确保财务报表的风景,在系数公司年度统计中齐是雷同的,因此LLM也不知谈其分析对应的是哪家公司或哪个时辰段。

在第二阶段中,商榷东谈主员想象了一个指示,交流LLM进行财务报表分析,并细则将来收益标的。

除了简短的指示外,他们还栽种了一个CoT指示,践诺上是「教」LLM以东谈主类金融分析师的念念维历程进行分析。

具体来说,金融分析师在分析中会识别财务报表中显贵的趋势,筹画要津财务比率(如诡计后果、流动性和杠杆比率),详尽这些信息,并形成对将来收益的预期。

商榷东谈主员创建的CoT指示,即是通过一系列设施,来结束这个念念维历程。

在数据集继承上,商榷东谈主员使用Compustat数据库来测试模子的弘扬,并在必要时与IBES数据库交叉使用。

样本涵盖了从1968-2021年之间,15401家公司的150678个公司的年度数据。

分析师的样本涵盖了1983-2021年本事,包含3152家公司的39533个不雅察数据。

LLM为如何此到手

对于这个收尾,商榷者淡漠了两种假定。

第一种假定是,GPT的弘扬透澈是由近乎完整的操心启动的。

GPT很可能是从数据中猜测出了公司的身份和年份,然后将这些信息与新闻中学到的对于该公司的情感相匹配。

为此,商榷者试图摈斥这种可能。况且,也使用了GPT-4磨砺期除外的全新数据,复制了收尾。

第二种假定是,GPT之是以能猜测出将来收益的标的,是因为生成了灵验的看法模子。

比如,模子常常司帐算金融分析师筹画的标注比率,然后把柄CoT请示生要素析这些比率的讲演。

为此,商榷者将模子为给定公司年度生成的系数讲演汇总,并使用BERT将它们编码成768维向量(镶嵌),然后将这些向量输入到ANN中,并磨砺它预计将来收益的标的。

收尾,基于GPT讲演看法磨砺的ANN达到了59%的准确率,这真实与GPT的预计准确率(60%)一样高。

这一收尾径直评释,模子生成的讲演看法对将来弘扬具有信息性。

另外不错不雅察到,GPT的预计与基于GPT讲演的ANN预计之间,有94%的相关性,这就标明,这些讲演编码的信息是GPT预计的基础。而在解释将来收益方进取,与比率分析相关的讲演最为进攻。

总之,模子之是以弘扬优厚,原因就是来自于基于CoT推理生成的讲演。

实验收尾

最新商榷中的实验评估收尾,不错总结为以下三大亮点。

GPT胜过东谈主类金融分析师

为了评估分析师的预计准确性,商榷者筹画了「共鸣预计」(即财务报表发布后一个月内各个分析师预计的中位数),并将其当作下一年收益的预期。

这确保了分析师预计和模子预计收尾的可比性。

此外,作家还使用了使用将来三个月和六个月的「共鸣预计」当作可替代的预期基准。

这些基准对LLM不利,因为它们整合了一年中所获取的信息。不外,接洽到分析师可能在将新信息纳入预计时较为迟缓,商榷者选拔回报这些基准以供比较。

商榷东谈主员领先对GPT在预计将来「收益标的」方面的弘扬进行了分析,并将其与证券分析师的弘扬进行了比较。

他们扎眼到预计每股收益(EPS)变化是一项高度复杂的任务,因为EPS时辰序列近似于「Random Walk」(随即游走)况且包含多量弗成预计的要素。

随即游走反馈了,仅把柄刻下收益与之前收益比拟的变化的预计。

下图展示的是GPT和东谈主类金融分析师的预计性能对比收尾。

收尾瓦解,第一个月分析师的预计,在预计将来收益标的方面的准确率为53%,这跳跃了简短模子(将前一年的变化外推)的49%准确率。

而分析师三个月和六个月后的预计准确率,差异为56%和57%,这是合理的,因其包含了更实时的信息。

基于「简短」非CoT请示的GPT预计弘扬为52%,低于东谈主类分析师基准,这与商榷者预期一致。

然则,当使用CoT模拟东谈主类推理时,他们发现GPT的准确率达到了60%,显贵高于分析师的弘扬。

如果再去核查F1-score(F1评分),这是一种评估模子预计才略的替代主见(基于其精准度和调回率的组合),也会得出访佛的论断。

这标明,在分析财务报表以细则公司发展 标的方面, GPT彰着打败了中位数金融分析师的弘扬。

坦荡讲,东谈主类分析师可能依赖于模子无法获取的软信息或更庸俗的布景,从而增多了价值。

如实,商榷东谈主员还发现分析师的预计包含了GPT未捕捉到的,对于将来弘扬的灵验看法。

此外,商榷瓦解,当东谈主类难以作念出将来预计时,GPT的看法更有价值。

同样,在东谈主类预计容易出现偏见或后果低(即未合理纳入信息)的情况下,GPT的预计在预计将来收益标的方面更灵验。

GPT与专用神经网络不相波折

商榷东谈主员还比较了GPT和多样ML模子的预计精度。

他们继承了三种预计模子。

第一个模子「Stepwise Logistic」(慢慢归来),慑服Ou and Penman框架,使用了59个财务主见预计变量。

第二个模子是,使用雷同59个预计变量的ANN但也专揽了它们之间的非线性和交互。

第三,为了确保GPT和ANN之间的一致性,商榷东谈主员还使用了,基于提供给GPT的雷同信息集(损益表和金钱欠债表)磨砺的ANN模子。

进攻的是,商榷者基于每五年的历史数据使用 Compustat 的不雅察数据来磨砺这些模子。系数预计齐是样本外的(out of sample)。

使用系数Compustat样本,商榷发现「慢慢归来」的准确率(F1评分)为52.94%(57.23%),这与东谈主类分析师的弘扬相配,况且与之前的商榷一致。

比拟之下,使用雷同数据磨砺的ANN达到了更高的准确率60.45%(F1评分61.62%),这处于动身点进的收益预计模子的规模。

当使用GPT(with CoT)预计时,发现模子在系数样本上的准确率为60.31%,这与ANN的准确率非常接近。

事实上,GPT的F1评分显贵高于ANN(63.45% vs. 61.6%)。

此外,当商榷东谈主员仅使用两份财务报表的数据(输入到GPT中)磨砺ANN时,发现ANN的预计才略略低,准确率(F1评分)为 59.02%(60.66%)。

总体而言,这些收尾标明GPT的准确率与动身点进的专用机器学习模子的准确率相配(以致略高)。

ANN和GPT预计互补

商榷东谈主员进一步不雅察到,ANN和GPT的预计具有互补性,因为它们齐包含灵验的增量信息。

况且有迹象标明,当ANN弘扬欠安时,GPT时时弘扬精湛。

独特是,ANN基于其在夙昔数据中看到的磨砺示例来预计收益。况且,鉴于好多示例非常复杂且高度多维,其学习才略可能受到放胆。

比拟之下,GPT在预计袖珍或亏空公司的盈利时,犯的误差相对较少,可能收货于其访佛东谈主类的推理和庸俗的知识。

除此除外,商榷者还进行了几项额外的实验,基于GPT对其谜底的置信度对样本进行分区,并使用了不同的LLM家眷。

当GPT以更高的置信度修起时,预计时时比置信度较低的预计更准确。

与此同期,商榷评释了这一收尾不错实施到其他大模子上。独特是,谷歌最近发布的Gemini Pro,其准确率与GPT-4 不相波折。

下图瓦解了,GPT响应中,双词(bigram)和单词(monogram)的频率统计。

这里,双词指的是由两个流通的单词构成,在文本中系数使用;单词指的是一个单词。

图左展现的是「双词」的收尾,GPT对于财务比率分析的谜底中发现的十个最常见的「双词」。

图右列出的是,GPT对二元盈利预计(binary earnings predictions)中,出现频率最高的十个单词。

之是以作念这项分析,是为了细则GPT在不同财务分析环境中,使用最常见的术语和短语。

意念念的是,「贸易利润率」(Operating Margin)和「增长」(Growth)这两个词的预计力最高。

看来,GPT似乎也曾内化了「40端正」。

总之,系数收尾标明,AI加快发展,金融分析师的变装将会转换。

弗成否定,东谈主类专科知识和判断力不太可能在短期内被透澈取代。

但像GPT-4这么遒劲的AI器用可能会极地面增强和简化分析师的使命,以致可能在将来几年里,重塑财务报表分析这一范畴。






Powered by 熊猫体育APP下载 @2013-2022 RSS地图 HTML地图

栏目分类

热点资讯

相关资讯