预测股票走势的方案.doc
文本预览下载声明
股票预测Wrapper方法的研究与应用
摘要:近年来股票市场预测研究一直较受欢迎。大量研究者尝试基于多种数学模型的技术指数及机器学习技术预测股票价格或指数。尽管现有方法展示了较满意的预测成就,但是股票市场是升还是降的预测准确性很少被分析。用Wrapper方法从由23个技术指标构成的原始特征集中选择最优特征子集,然后用混合不同分类算法的投票法来预测两股票市场的趋势。实验结果表明Wmpper方法比常用的Filter式特征选择算法如一统计,信息增益,ReliefF,对称不确定性,和CFS能有更好的性能。此外,提出的投票法超越单一的分类器如SVM,K最邻近,BP神经网络,决策树和Lc~stic回归。
关键词:股票预测;Wrapper;投票;特征选择;分类
1绪论
股票市场预测被认为是金融时间序列预测的一项有挑战性的任务。在这一领域有很多用人工神经网络的研究。许多成功的应用显示人工神经网络是时间序列建模和预测的一个非常有用的工具,早期的研究者集中在用人工神经网络预测股票市场,最近的研究趋向杂交好几种人工智能技术。后来提出了遗传算法来进行特征离散化,人工神经网络连接权的决定来预测股票价格指数,这些方法减少了特征空间的维数,加强了预测性能。可是,这些研究中有些表明人工神经网络在学习模式上有些缺陷,因为股票市场数据有巨大的噪声和复杂的维数。因此,人工神经网络在噪声数据上展示了不一致和不可预测的性能。然而,BP神经网络,最流行的神经网络模式,在选择大量的包括相关输入变量、隐层的大小学习速率和动量常数的控制参数上遇到了困难。最近,发明了一种新的神经网络法,SVM。许多传统的神经网络模式落实了实证风险最小化原则,而SvM落实了结构风险最小化原则。前者寻求最小化误分类错误或与训练数据的正确解决方案的偏离程度,而后者寻求最小化一个上界泛化误差。此外,SVM的解决方案可能是全局最优的,而其他神经网络模式可能趋向落入局部最优的解决方案。因此,SVM不可能发生过拟合uJ。Kim(2O03)提出了一种SVM方法来预测股票价格的方向。在Ki丌1(2003)中l1个技术指标被用做输入量,最好的预测率达到了59%。为了对付这一挑战,我们尝试用一种合适的特征选择方法从23个常用指标中选择最相关的技术指标,然后将选择的技术指标转化成SVM分类器来预测两地未来的股票趋势。此外,提出了一种新的投票法,该方法将不同的分类算法与由每个分类器的Wrapper方法选择的特征集相结合。普通的投票法间的不同叫做堆叠,笔者提出的投票法就是普通的堆叠方案仅结合几种不同的分类器来达成共识,在该方法中,进一步用Wrapper特征选择算法来为投票法中采用的每一个指定分类找到最好的特征集[2~5]。
2方法的研究
Filter特征选择方法
在许多实际情况下,有太多与股票趋势分类相关的特征了。从机器学习领域的角度,它们当中有些是不相关的,有些是多余的。人所共知包含不相关的和多余的信息可能引起一些机器学习算法的不正确的结果-6J。特征子集选择能被看作通过特征子集空间的一种搜索。在文献中有很多特征选择方法提出来,如:(1)一统计:这种方法通过计算与类相关的一统计值来测量特征的重要性。cFS:一~/七—十走(一:;1)f,这里,CFS是含有k个特征值的一特征子集的分数,,是类相关的平均特征(厂∈s),_fr是特征相关的平均特征。一般的filter算法和CFS间的区别在于当一般的过滤器为每一个特征独立地提供分数时,CFS给出特征子集的启发式“优点”,并报道它找到的最好的子集。
Wrapper方法加投票机技术
2.1Wmp~r特征选择算法Wrapper方法寻找适于特别算法的最优特征子
集,而Filter方法尝试测量来自数据集的特征值。Wrapper方法的概念列在图1中,在Wrapper方法中,特征子集选择由像一个黑箱的归纳算法来进行。特征子集选择算法用归纳算法自身作为评估函数的一部分来寻找一个好的子集,感应分类器的准确性由准确评估技术来估计,分类算法自身用来决定属性子集。因为Wrapper方法在消除特征值时优化分类算法的评估测量,它大多导致比1部分描述的所谓的Filter方法更大些的准确性。(2)信息增益:这种方法通过测量与类相关的信息增益来测量特征的重要性。(3)对称不确定性:这种方法通过测量与类相关的对称不确定性来测量特征的重要性。(4)Relie:这种算法是一种对特征互动敏感的特征加权算法。ReliefF的关键思想是根据它们的值在不同类的例子中区别如何及它们聚类同一类的例子如何来类比特征值。为此,ReliefF不断地从数据中随机地选择单一的例子,然后找到同类的最近的实例及属于不同类的最近的实例。这些例子的特征值被用来更新每一特征的分数。
(5)CFS(Correlationbasedfeatur
显示全部