时间序列数据挖掘在股市预测分析中的应用研究.ppt
文本预览下载声明
1.1 课题研究背景与研究意义 1.3 本文研究内容 1.3 本文研究内容 时间序列数据挖掘技术 时间序列数据挖掘技术 时间序列数据挖掘技术 3.1 时间序列变换和表示 时间序列分段算法及其改进 时间序列分段算法及其改进 3.2 时间序列分段算法及其改进 3.3 实验结果和分析 实验1:时间序列划分效果比较 实验2:运行时间对比性能分析 4.1~4.2 时间序列相似性搜索 4.5 时间序列相似性搜索算法改进 4.5 时间序列相似性搜索算法改进 4.6 实验计算与分析 5.2 挖掘服务器系统架构 5.2 挖掘服务器系统架构 5.4 股市预测应用效果分析 5.4 股市预测应用效果分析 6 结论与展望 6 结论与展望 2008-11-29 时间序列数据挖掘在股市预测分析中的应用研究 答辩人:何永沛 专 业:计算机软件与理论(软件工程领域) 导 师:文俊浩 教授 重庆大学软件学院硕士学位论文答辩 * 重庆大学软件学院 * 数据丰富,信息贫乏 大量的金融证券数据非常具有挖掘价值 当前国内外挖掘系统价格非常昂贵 重庆大学软件学院 * e 分析时间序列的变换和表示,研究了时间序列的分段线性化表示,结合滑动窗口算法和聚类分析,提出了一种基于聚类的误差修正滑动分段算法。 研究了时间序列的相似性搜索问题,针对金融数据的特殊性,提出了结合利用移动均值索引时间序列的相似性搜索方法,用来解决子序列匹配中的“ -查询”问题,该方法可以快速淘汰大部分不符合条件的候选对象,大大缩小了搜索的范围,实验结果表明该方法具有良好的查询性能。 开发了一个时间序列数据挖掘原型系统,并把该原型系统应用到股市预测分析中,实验结果表明了该原型系统设计的合理性和可用性。 重庆大学软件学院 * 重庆大学软件学院 * 时间序列数据挖掘技术的研究主要包括: 分段及相似性搜索 趋势分析 关联与序列分析 聚类分析 模式挖掘 预测技术 异常检测 可视化 重庆大学软件学院 * 时间序列分析的三个目的: 预测(forecasting) 建模(modeling) 特征提取(characterization) 建模方法步骤 常见的时间序列模型: 自回归模型(AR) 移动平均模型(MA) 求和自回归移动平均模型 (ARIMA) 季节模型 重庆大学软件学院 * 时间序列趋势分析: 长期趋势变化 循环变化 季节性变化 随机变化 某公司股票价格随时间的变动 重庆大学软件学院 * 时间序列变换和表示主要的问题: 如何提取特征点 特征点表示表示 快 正交变换 不能 能 好 好 一般 很好 DWT 快 正交+分段 能 能 好 好 一般 好 分段 慢 整体变换 能 不能 很差 好 一般 好 SVD 快 正交变换 能 能 好 很好 差 很好 DFT 处理 算法 处理 思路 能否处理不同长度序列 能否插 入/删除 动态性 整体 趋势 局部 特征 降维 效果 变换 常见时间序列变换方法比较 重庆大学软件学院 * 线性分段方法(PLR) 线性分段算法思路: 限制分段数k 限制分段误差 常见的基于误差的时间序列分段算法: 滑动窗口分段算法 自顶向下分段算法 自底向上分段算法 重庆大学软件学院 * 累积残差分段效果 (见上图) 平均残差分段效果 (见下图) 重庆大学软件学院 * ① 针对Sliding Window拟合误差判别容易丢失特征点的缺陷,本算法改进了拟合误差判别方式。向窗口插入新节点前首先计算窗口中节点而不是加入插入点后的拟合直线及其拟合误差,并在此误差基础上加入插入点到该拟合直线的距离; ② 在进行合并前,不单单以累积残差作为判断依据,同时考虑平均残差来衡量合并子序列的线性度,如果合并后的子序列线性度发生大的变化,比如说大于1.5,就不进行合并操作; ③ 针对现有窗口分段算法只关注局部数据,缺乏对整体数据的考虑,结合聚类分析,对整个数据集进行聚类,记录序列整体信息,并将其用于分段判别上,增强分段效果。 重庆大学软件学院 * 实验数据 浦发银行(股票代码600000)每日收盘价格 实验目的 算法的划分性能 算法的运行效率 算法的收敛性 重庆大学软件学院 * 图3.5 累积误差窗口算法划分结果 累积误差窗口算法划分结果 平均误差窗口算法划分结果 改进算法划分结果 重庆大学软件学院 * 改进算法和滑动窗口算法运行时间对比 重庆大学软件学
显示全部