首页互联网资讯大型语言模型能打败华尔街吗？揭示人工智能在选股方面的潜力

大型语言模型能打败华尔街吗？揭示人工智能在选股方面的潜力

互联网资讯 56年前(70-01-01) 355

2024-01-11,

人工智能（AI）在金融领域的应用已经引起了广泛的关注和讨论，尤其是在股票市场的分析和预测方面。随着大数据的发展和深度学习的进步，越来越多的研究者和投资者试图利用AI的强大计算和推理能力，来提取和利用各种类型的数据，包括市场价格、财务报告、新闻报道、宏观经济等，以期获得更高的收益和更低的风险。AI在金融领域的应用仍然面临着许多挑战和限制，例如数据的质量和可靠性、模型的复杂性和可解释性、市场的动态性和不确定性等。

LLM在金融领域的应用引起了研究者的兴趣，尤其是在利用文本数据进行股票分析和预测方面。文本数据是一种重要的非结构化数据，包含了大量的信息和情感，对股票市场的走势和股票的表现有着重要的影响。文本数据的处理和分析是一项具有挑战性的任务，需要对语言的语法、语义、逻辑、修辞等进行深入的理解和推理。LLM的出现为解决这一问题提供了一种新的可能，它可以利用其强大的语言能力，从文本数据中提取和生成有价值的信息和信号，从而帮助投资者做出更好的选股决策。

本文介绍了一篇最新的论文，题为《Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection》，该论文由来自希腊雅典信息技术研究所（AIT）的Georgios Fatouros、Konstantinos Metaxas、John Soldatos和Dimosthenis Kyriazis等四位作者撰写，于2024年1月8日在arXiv上发表。该论文提出了一个创新的基于AI的股票分析和选择框架，名为MarketSenseAI，利用GPT-4的先进推理能力，实现了可扩展的选股信号的生成。MarketSenseAI结合了思维链（Chain of Thought）和情境学习（In-Context Learning）的方法，分析了包括市场价格动态、财经新闻、公司基本面和宏观经济报告等在内的多种数据源，模拟了著名的金融投资团队的决策过程。该论文详细介绍了MarketSenseAI的开发、实现和实证验证，重点关注了它提供的可行的投资信号（买入、持有、卖出），以及这些信号背后的有说服力的解释。该论文的一个显著特点是，它不仅将GPT-4作为一种预测工具，还将其作为一种评估器，揭示了AI生成的解释对于投资信号的可靠性和接受度的重要影响。在对标普100指数的股票进行了广泛的实证评估后，该论文发现，MarketSenseAI在保持与市场相当的风险水平的同时，超过了基准指数13%，实现了高达40%的回报。这些结果证明了LLM在复杂的金融决策中的有效性，标志着将AI集成到金融分析和投资策略中的重大进步。该论文为金融AI领域做出了贡献，展示了一种创新的方法，强调了AI在革新传统的金融分析和投资方法方面的变革潜力。

本文将对该论文进行全面的解读，从以下几个方面进行分析：（1）该论文的主要贡献和创新点；（2）该论文的核心方法和技术；（3）该论文的实验设计和结果；（4）该论文的局限性和未来展望。本文的目的是为读者提供一个清晰和深入的理解，帮助读者掌握该论文的主要内容和意义，以及对金融AI领域的启示和影响。

01 主要贡献和创新点

论文提出了一个创新的基于AI的股票分析和选择框架，名为MarketSenseAI，利用GPT-4的先进推理能力，实现了可扩展的选股信号的生成。该框架结合了思维链（Chain of Thought）和情境学习（In-Context Learning）的方法，分析了包括市场价格动态、财经新闻、公司基本面和宏观经济报告等在内的多种数据源，模拟了著名的金融投资团队的决策过程。该框架不仅提供了可行的投资信号（买入、持有、卖出），还提供了这些信号背后的有说服力的解释，帮助投资者理解和信任AI的建议。

作者对MarketSenseAI的性能进行了广泛的实证评估，使用了多种评估方法和指标，包括自助法、市场表现和基于排名的后评估。在对标普100指数的股票进行了为期一年的回测后，该论文发现，MarketSenseAI在保持与市场相当的风险水平的同时，超过了基准指数13%，实现了高达40%的回报。这些结果证明了LLM在复杂的金融决策中的有效性，标志着将AI集成到金融分析和投资策略中的重大进步。

这篇论文为金融AI领域做出了贡献，展示了一种创新的方法，强调了AI在革新传统的金融分析和投资方法方面的变革潜力。该论文不仅利用了LLM的语言能力，还利用了LLM的推理能力，从而提高了信号的质量和解释的可信度。该论文还探讨了LLM在金融领域的应用的局限性和挑战，以及未来的研究方向和机遇。

02 核心方法和技术

MarketSenseAI的架构和流程。该论文设计了一个基于AI的股票分析和选择框架，名为MarketSenseAI，其架构如图1所示。该框架包括四个主要的组件，分别是数据获取、数据处理、信号生成和信号评估。数据获取组件负责从多种数据源收集和存储相关的数据，包括市场价格动态、财经新闻、公司基本面和宏观经济报告等。数据处理组件负责对收集的数据进行清洗、标准化、归一化、特征提取等操作，以便于后续的分析和预测。信号生成组件负责利用GPT-4的先进推理能力，结合思维链（Chain of Thought）和情境学习（In-Context Learning）的方法，分析数据，生成投资信号（买入、持有、卖出）和相应的解释。信号评估组件负责利用GPT-4的评估能力，对信号和解释进行评分，以反映其可靠性和接受度。该框架的流程分为三个阶段，分别是数据阶段、信号阶段和评估阶段。数据阶段包括数据获取和数据处理两个组件，信号阶段包括信号生成组件，评估阶段包括信号评估组件。该框架的目标是为投资者提供可行的选股信号和有说服力的解释，帮助投资者做出更好的选股决策。

图1 MarketSenseAI的架构

在论文中使用多种数据源，包括市场价格动态、财经新闻、公司基本面和宏观经济报告等，以覆盖股票市场的各个方面和影响因素。市场价格动态是指股票的历史价格和交易量等数据，该论文使用了雅虎财经（Yahoo Finance）的API，获取了标普100指数的股票的每日收盘价和交易量等数据，作为信号生成的输入之一。财经新闻是指与股票相关的新闻报道，该论文使用了新闻API（News API），获取了来自不同来源的新闻文章，包括标题、内容、日期、作者等信息，作为信号生成的输入之一。公司基本面是指与股票相关的公司的财务和经营状况，该论文使用了财报API（Financial Statements API），获取了标普100指数的股票的季度和年度的财务报告，包括资产负债表、利润表、现金流量表等数据，作为信号生成的输入之一。宏观经济报告是指与股票相关的国家或地区的经济状况，该论文使用了经济指标API（Economic Indicators API），获取了美国的一些重要的经济指标，例如GDP、失业率、通货膨胀率、利率等数据，作为信号生成的输入之一。数据处理组件负责对收集的数据进行清洗、标准化、归一化、特征提取等操作，以便于后续的分析和预测。数据清洗是指去除数据中的噪声、异常值、缺失值、重复值等，以提高数据的质量和可靠性。数据标准化是指将数据转换为标准的格式和单位，以便于数据的比较和整合。数据归一化是指将数据转换为统一的范围，以便于数据的分析和处理。特征提取是指从数据中提取出有用的信息和特征，以便于数据的表示和理解。该论文使用了一些常用的数据处理方法，例如均值填充、Z分数、最大最小归一化、移动平均、差分、对数变换、主成分分析等，以提高数据的可用性和有效性。

信号生成。该论文利用GPT-4的先进推理能力，结合思维链（Chain of Thought）和情境学习（In-Context Learning）的方法，分析数据，生成投资信号（买入、持有、卖出）和相应的解释。思维链是指一种模拟人类思维过程的方法，通过将不同的数据源和知识领域连接起来，形成一个完整的逻辑链条，从而得出结论和建议。情境学习是指一种利用上下文信息的方法，通过将数据和知识嵌入到特定的情境中，从而提高模型的理解和推理能力。该论文使用了GPT-4作为核心的信号生成器，通过构造特定的输入和输出格式，训练和调用GPT-4，从而实现思维链和情境学习的方法。

图片

图2

信号生成过程分为以下几个步骤：

步骤一：构造输入。根据不同的数据源和知识领域，构造了不同的输入格式，包括以下几种：

市场价格动态输入。该输入包括股票的历史价格和交易量等数据，以及一些技术分析指标，例如移动平均线、相对强弱指数、布林带等。该输入的目的是反映股票的价格走势和市场情绪，以及股票的趋势、动量等。

步骤二：调用GPT-4。使用了GPT-4作为核心的信号生成器，通过构造特定的输入和输出格式，训练和调用GPT-4，从而实现思维链和情境学习的方法。使用GPT-4的大型模型（1750亿个参数），并对其进行了微调，以适应金融领域的语言和知识。使用了以下的输出格式：

信号输出。该输出包括股票的名称、代码、日期和信号（买入、持有、卖出）四个部分，以逗号分隔，例如：

NVIDIA Corporation,NVDA,2023-12-31,Buy

解释输出。该输出包括股票的名称、代码、日期和解释四个部分，以冒号分隔，例如：

NVIDIA Corporation,NVDA,2023-12-31:We recommend buying NVIDIA Corporation (NVDA) because it is a leading company in the artificial intelligence and gaming industry, which are expected to grow rapidly in the future. NVIDIA has a strong competitive advantage in its graphics processing units (GPUs), which are widely used for deep learning, cloud computing, and gaming applications. NVIDIA also has a diversified product portfolio, including data center, automotive, and professional visualization segments, which provide stable and recurring revenue streams. NVIDIA has a solid financial performance, with a high revenue growth rate, a high gross margin, and a high return on equity. NVIDIA also has a positive outlook, with a strong pipeline of new products and innovations, such as the GeForce RTX 30 series, the NVIDIA Omniverse, and the NVIDIA Grace CPU. Therefore, we believe that NVIDIA is a valuable and promising stock to buy and hold for the long term.

步骤三：解析输出。使用了一些简单的规则和算法，对GPT-4生成的输出进行解析，提取出信号和解释的内容，以便于后续的评估和展示。使用了以下的方法：

信号解析。该论文使用了一个简单的正则表达式，匹配出信号输出中的股票名称、代码、日期和信号四个部分，例如：

NVIDIA Corporation,NVDA,2023-12-31,Buy -> (NVIDIA Corporation, NVDA, 2023-12-31, Buy)

解释解析。使用一个简单的文本摘要算法，提取出解释输出中的主要信息和观点，以便于生成一个简洁和清晰的解释，例如：

Buy NVIDIA Corporation (NVDA) because it is a leader in AI and gaming, with a strong competitive advantage, a diversified product portfolio, a solid financial performance, and a positive outlook.

信号评估。利用GPT-4的评估能力，对信号和解释进行评分，以反映其可靠性和接受度。

信号评分。使用了一个简单的逻辑回归模型，根据信号的历史表现，对信号的成功概率进行预测，从而给信号分配一个0到1之间的评分，例如：

Buy NVIDIA Corporation (NVDA) -> 0.87

解释评分。使用了GPT-4作为一个评估器，根据解释的深度和相关性，对解释的质量和说服力进行评估，从而给解释分配一个0到1之间的评分，例如：

Buy NVIDIA Corporation (NVDA) because it is a leader in AI and gaming, with a strong competitive advantage, a diversified product portfolio, a solid financial performance, and a positive outlook. -> 0.92

综合评分。使用一个加权平均的方法，根据信号评分和解释评分的权重，对信号和解释的综合评分进行计算，从而给信号和解释分配一个0到1之间的评分，例如：

03 实验设计和结果

论文中他们对MarketSenseAI的性能进行了广泛的实证评估，使用了多种评估方法和指标，包括自助法、市场表现和基于排名的后评估。他们的实验对象是标普100指数的股票，实验期间是2023年1月1日至2023年12月31日，实验频率是每月一次。该论文的实验过程如下：

自助法。使用了自助法（Bootstrap）来评估MarketSenseAI的信号生成能力，即通过重复抽样的方法，生成多个信号样本，计算其平均值和置信区间，以反映信号的稳健性和可信度。该论文使用了以下的步骤：

步骤一：生成信号。该论文使用了MarketSenseAI的信号生成组件，对每只股票的每个月的数据进行分析，生成买入、持有、卖出三种信号，以及相应的解释。该论文使用了以下的规则：

- 如果信号是买入，且综合评分大于0.5，则执行买入操作，持有该股票一个月，然后卖出；

- 如果信号是持有，且综合评分大于0.5，则继续持有该股票一个月，然后卖出；

- 如果信号是卖出，且综合评分大于0.5，则执行卖出操作，不再持有该股票；

- 如果信号是买入、持有或卖出，但综合评分小于等于0.5，则忽略该信号，不执行任何操作。

步骤二：计算回报。该论文使用了以下的公式，计算每只股票的每个月的回报：

图片

在这个公式中，r′（i，j）表示资产j在时间i时的去趋势收益，r（i，j）是实际收益，而r（i，·）是所有资产在时间i的平均收益。这一去趋势过程至关重要，因为它有助于将个股的表现与更广泛的市场趋势隔离开来，从而为MarketSenseAI的信号精度提供更清晰的视角。

步骤三：重复抽样。该论文使用了以下的方法，对每只股票的每个月的回报进行重复抽样，生成多个回报样本：

- 从每只股票的每个月的回报中，随机抽取一个回报，放回原样本，重复该过程12次，得到一个回报样本；

- 对每个回报样本，计算其累积回报和年化回报，作为该样本的性能指标；

- 重复上述两个步骤1000次，得到1000个回报样本和相应的性能指标。

步骤四：计算平均值和置信区间。该论文使用了以下的公式，计算每只股票的每个月的回报的平均值和置信区间：

投资组合绩效（累积回报）由以下公式给出：

图片

命中率计算为：

图片

PL（i，j）：资产j在时间i的性能，定义为PL（i、j）=m（i，j）×r（i，j.）。

L：表示评估信号的指示符，Llong表示长，Lshort表示短，Lboth表示两个信号。

m（i，j）：在时间i的资产j的模型预测（信号）。

r（i，j）：资产j在时间i的实际收益。

VL：基于模型预测和L的收益集合。

I（x）：指标函数，如果x为true，则返回1，否则返回0。

步骤五：比较结果。该论文使用了以下的方法，比较MarketSenseAI的信号生成能力和随机信号生成能力的差异：

- 对于每只股票，使用相同的方法，生成1000个随机信号样本和相应的性能指标，作为基准；

- 对于每只股票，使用t检验，比较MarketSenseAI的信号样本和随机信号样本的性能指标的差异，计算p值，以反映差异的显著性；

- 对于所有的股票，使用平均值和标准差，汇总MarketSenseAI的信号样本和随机信号样本的性能指标，进行整体的比较。

市场表现。该论文使用了市场表现（Market Performance）来评估MarketSenseAI的信号生成能力，即通过将MarketSenseAI的信号转化为实际的投资组合，计算其收益率和风险指标，与市场基准进行比较，以反映信号的有效性和优势。使用了以下的步骤：

步骤一：构造投资组合。该论文使用了MarketSenseAI的信号生成组件，对每只股票的每个月的数据进行分析，生成买入、持有、卖出三种信号，以及相应的解释。该论文使用了以下的规则：

- 如果信号是买入，且综合评分大于0.5，则执行买入操作，持有该股票一个月，然后卖出；

- 如果信号是持有，且综合评分大于0.5，则继续持有该股票一个月，然后卖出；

- 如果信号是卖出，且综合评分大于0.5，则执行卖出操作，不再持有该股票；

- 如果信号是买入、持有或卖出，但综合评分小于等于0.5，则忽略该信号，不执行任何操作。

他们使用了等权重的方法，将每个月的可用资金平均分配给所有符合条件的股票，构造了一个动态的投资组合，作为MarketSenseAI的表现。

步骤二：计算收益率和风险指标。

步骤三：比较结果。该论文使用了以下的方法，比较MarketSenseAI的投资组合和市场基准的差异：

- 选择标普100指数作为市场基准，使用相同的方法，计算其收益率和风险指标；

- 对比MarketSenseAI的投资组合和市场基准的收益率和风险指标，分析其差异的原因和意义；

- 使用信息比率（Information Ratio）作为综合的评价指标，计算MarketSenseAI的投资组合相对于市场基准的超额收益和主动风险，以反映其相对的有效性和优势。

基于排名的后评估。使用基于排名的后评估（Rank-Based Post-Evaluation）来评估MarketSenseAI的信号生成能力，即通过将MarketSenseAI的信号转化为股票的排名，计算其与市场基准的相关性和一致性，以反映信号的准确性和稳定性。使用了以下的步骤：

步骤一：构造排名。该论文使用了MarketSenseAI的信号生成组件，对每只股票的每个月的数据进行分析，生成买入、持有、卖出三种信号，以及相应的解释。该论文使用了以下的规则：

•如果信号是买入，且综合评分大于0.5，则将该股票的排名设为1；

•如果信号是持有，且综合评分大于0.5，则将该股票的排名设为2；

•如果信号是卖出，且综合评分大于0.5，则将该股票的排名设为3；

•如果信号是买入、持有或卖出，但综合评分小于等于0.5，则将该股票的排名设为4。

使用以下的方法，对每只股票的每个月的排名进行排序，得到一个股票的排名列表，作为MarketSenseAI的表现。

步骤二：计算相关性和一致性。该论文使用了以下的方法，计算MarketSenseAI的股票的排名列表和市场基准的股票的排名列表的相关性和一致性：

选择标普100指数作为市场基准，使用每个月的收益率作为股票的排名依据，得到一个股票的排名列表，作为市场基准的表现；

对于每个月，使用斯皮尔曼等级相关系数（Spearman Rank Correlation Coefficient），计算MarketSenseAI的股票的排名列表和市场基准的股票的排名列表的相关性，以反映信号的准确性；

对于每个月，使用克伦德尔一致系数（Kendall Concordance Coefficient），计算MarketSenseAI的股票的排名列表和市场基准的股票的排名列表的一致性，以反映信号的稳定性。

步骤三：比较结果。该论文使用了以下的方法，比较MarketSenseAI的股票的排名列表和市场基准的股票的排名列表的差异：

对于每个月，使用t检验，比较MarketSenseAI的股票的排名列表和市场基准的股票的排名列表的相关性和一致性的差异，计算p值，以反映差异的显著性；

对于所有的月份，使用平均值和标准差，汇总MarketSenseAI的股票的排名列表和市场基准的股票的排名列表的相关性和一致性，进行整体的比较。

04 局限性和未来展望

虽然在股票分析和选择方面展示了LLM的强大能力和潜力，但也存在一些局限性和挑战，需要在未来的研究中进行改进和拓展。该论文指出了以下几个方面的局限性和未来展望。

数据的质量和可靠性。论文使用了多种数据源，包括市场价格动态、财经新闻、公司基本面和宏观经济报告等，但这些数据可能存在一些问题，例如不完整、不准确、不及时、不一致、有偏见等，这些问题可能影响数据的质量和可靠性，从而影响信号的生成和评估。因此，该论文建议在未来的研究中，使用更高质量和更可靠的数据源，或者使用更先进的数据处理和分析方法，以提高数据的质量和可靠性。

模型的复杂性和可解释性。他们使用GPT-4作为核心的信号生成器和评估器，利用其强大的语言理解和生成能力，实现了思维链和情境学习的方法，但这也导致了模型的复杂性和可解释性的问题。GPT-4是一个非常大的神经网络模型，拥有1750亿个参数，其内部的工作原理和逻辑很难被人类理解和解释，这可能导致模型的不可预测性和不可控制性，从而影响信号的可信度和接受度。因此论文建议在未来的研究中，使用更简单和更透明的模型，或者使用更有效的模型解释和可视化方法，以提高模型的复杂性和可解释性。

市场的动态性和不确定性。在论文中使用了标普100指数的股票作为实验对象，对2023年的数据进行了回测，但这可能不能反映市场的动态性和不确定性，即市场的走势和股票的表现可能随着时间和环境的变化而变化，这可能导致信号的失效和过时，从而影响信号的有效性和优势。因此，论文建议在未来的研究中，使用更多的股票和更长的时间段，或者使用更灵活和更实时的信号生成和评估方法，以提高信号的动态性和不确定性。

参考资料：https://arxiv.org/abs/2401.03737

PS:本文来源：大型语言模型能打败华尔街吗？揭示人工智能在选股方面的潜力,语言,模型,人工智能,人工智能,作者：FlerkenS