图书前言

前 言

随着社会经济和信息技术的发展 ,时间序列的数据量增长越来越快 ,相应地 ,利用数据挖掘技术在时间序列数据库中发现潜在的有价值的信息和知识也备受关注 ,其研究成果已被成功地应用于经济、金融、电子信息、医疗卫生、教育、工业和工程等领域。然而,时间序列数据的特征表示和相似性度量是时间序列数据挖掘任务中最为基础和关键的工作 ,其质量直接影响时间序列数据挖掘的结果。时间序列数据随时间的推移而不断增长 ,数据的高维、动态、不确定等特性阻碍了传统数据挖掘技术性能的发挥。特征表示的主要目的是利用少量特征近似表示原始时间序列 ,起到有效降维的作用 ,进而提高数据挖掘任务的效率。相似性度量是测量时间序列之间差异性的方法 ,通常结合特征表示方法对时间序列之间的相似性进行快速、有效地度量 ,其度量结果可用于分类、聚类、相似性搜索和异常模式发现等时间序列数据挖掘任务中。本研究分别以等长和不等长的单变量时间序列为主要研究对象 ,探讨利用不同的方法对这些时间序列数据进行特征表示和相似性度量 ,使得各种方法能更为完善和有效地运用于时间序列数据挖掘,并解决与时间序列挖掘任务相关的管理和应用问题 ,获取潜在有价值的信息和知识。本书的主要内容如下。 

(提出基于正交多项式回

1)从等长时间序列的整体特征出发 ,归系数特征表示的相似性度量方法。通过分析多项式最高项次数对时间序列整体形态拟合效果的影响 ,选取合适的特征系数反映时间序列的主要形态趋势 ,提出更适合特征序列的相似性度量方法,并且在理论上证明其满足下界性 ,提高特征表示和相似性度量在时间序列相似性搜索中的性能。

(2)针对分段聚合近似表示方法对等长时间序列进行特征表示时存在的问题 ,利用多维特征对等长时间序列进行特征表示 ,构造满足下界性的相似性度量方法。通过对传统分段聚合近似表示方法及其相似性度量方法满足下界性的剖析 ,利用不同维度的特征来近似表示分段序列 ,分别提出了基于二维统计特征和基于二维形态特征的分段聚合近似方法 ,提高了传统分段聚合近似方法在时间序列数据挖掘中的应用效率。同时 ,将分段序列的二维形态特征表示推广到更高维形态特征表示 ,使得较高维数的分段特征表示方法在较大数据压缩率的情况下 ,其距离度量函数的性能有所提高。 

(3)以云模型理论为基础对等长时间序列实现分段特征表示 ,提出了具有较高性能的相似性度量方法。利用云模型反映分段序列数据分布的不确定性 ,给出了云模型相似性度量函数 ,实现云特征序列之间的相似性度量。虽然基于云模型的时间序列相似性度量方法不能满足下界性 ,但它从局部和全局的角度来考虑时间序列的波动性和不确定性 ,具有较高的相似性度量质量 ,有效地提高了时间序列数据挖掘相关算法的性能。 

(4)针对传统动态时间弯曲方法度量不等长时间序列需要较高时间代价的问题 ,提出了两种改良后的弯曲度量方法。首先 ,在权衡计算速度和度量精度的情况下 ,通过自适应快速分段线性表示对时间序列进行特征表示 ,再结合导数动态时间弯曲方法来快速、有效地对不等长时间序列进行弯曲度量 ,进而提出了基于分段线性近似和导数动态时间弯曲的时间序列相似性度量方法。其次,为解决动态时间弯曲方法带来较大计算量的问题 ,通过缩小最优弯曲路径的搜索范围和提前终止计算最优弯曲路径的策略 ,提高传统动态时间弯曲方法在时间序列相似性搜索中的计算效率。此外 ,将动态时间弯曲用于度量变量之间的异步相关性问题 ,进而提出鲁棒性较强的异步主成分分析方法 ,拓展了传统主成分分析方法在时间序列数据特征表示和数据降维等方面的应用效果。 

(5)时间序列数据特征表示与相似性度量方法在主题数据、融股票、期刊文献数据和发动机参数等挖掘领域中的应用。首先 ,通过构建主题之间的共现时间序列数据 ,使用复杂网络方法来分析主题 ,提出共现时间序列数据聚类的主题网络分析方法 ,用于提高主题分析质量。其次 ,针对金融市场中机构交易对股票市场中的散户投资行为具有较强的误导性的现象 ,提出了一种基于机构交易行为影响的趋势预测方法 ,进而使时间序列数据挖掘技术有效地应用于金融股票数据的趋势预测。再次 ,时间序列的动态时间弯曲度量方法对参考文献来源期刊和引证文献来源期刊的时间序列数据进行数值与趋势的距离度量 ,从不同角度分析期刊文献数据随时间变化的情况 ,结合近邻传播聚类分析 ,验证参考文献来源期刊之间的相似性和引证文献来源期刊之间的关系。文献聚类分析结果有助于为期刊论文作者和编辑部工作人员提供关于参考文献选择和引用的相关参考意见 ,提升作者的科研水平和编辑部刊发论文的质量。另外 ,根据发动机性能参数时间序列数据的特性,利用新的时间序列特征表示和相似性度量方法来实现发动机性能参数的数据挖掘 ,进而有效地对发动机性能参数进行特征识别和故障检测 ,给发动机设计过程中的知识发现增加了新的视角 ,为保障发动机的安全运行提供参考依据。

以上研究成果通过数值实验检验了它们对不同类型时间序列数据进行特征表示和相似性度量方法的有效性 ,并且比较了它们在时间序列数据挖掘任务中提高相关算法的性能 ,进一步完善了时间序列数据挖掘中特征表示和相似性度量方法在理论技术与应用管理方面的研究。

本书特色

内容系统性

特征表示和相似性度量是时间序列数据挖掘过程中一项重要而又基础的数据预处理工作 ,其质量和效率直接影响后期相关时间序列数据挖掘算法和模型的效果。本书从时间序列数据的不同特点出发 ,深入和系统地研究和分析其特征表示和相似性度量方法,并结合相应的数据挖掘任务进行实验比较和分析 ,同时也将研究成果应用于具体应用中 ,从时间序列数据视角更好地解决实际问题。

案例新颖性

本书对时间序列数据特征表示和相似性度量的方法有效性与先进性进行深入分析及研究 ,实验过程中使用了大量的公共数据集,使得实验案例具有一定的代表性。同时 ,除了将特征表示和相似性度量方法应用于常见的金融股票数据外 ,还将它们应用于文献数据分析、文本主题分析和发动机参数检测等与时间序列间接相关的新颖案例中 ,进而拓展了解决实际应用问题的理论和方法。

读者对象

对于研究和使用计量经济模型的学者与管理者 ,可以抛开烦琐的模型假设和检验等过程 ,克服时间序列数据分析中的回归拟合模型的传统思维束缚 ,尝试从时间序列数据挖掘的视角来研究传统计量经济模型不能发现或不能解决的研究问题。相信通过本书的学习 ,读者会对时间序列数据分析有新的想法。

对于在统计学、计算机科学、经济学或管理学等领域从事关于时间序列数据分析和研究的行业工作者或有志从事相关领域科学研究的本科生、研究生 ,可以通过阅读与学习本书 ,从特征表示和相似性度量等数据预处理的角度出发 ,较为系统地了解时间序列数据挖掘算法和模型 ,逐步学会利用时间序列数据挖掘技术和方法来解决与时间序列数据相关的实际应用问题。