以时间为单位的证券数据研究

时间：2022-04-05 05:15:01

以时间为单位的证券数据研究

摘要：证券数据是高维数据，具有明显的以时间为单位的特点。验证证券数据的相似性，可以为证券行业的监管或者决策提供依据。文章设计了轻量级的证券数据格式，使用改进的高维数据相似性度量函数HDsim（X，Y），对证券数据的相似性进行了研究和计算，并对研究结果进行了验证。

关键词：高维数据；证券数据；相似度；XML

1概述

证券交易行为充满了复杂性，证券数据也看似随机。客观分析和研究证券数据，找出隐藏在其中的规律，有助于我们对证据市场进行监管和决策。证券数据具有明显的时间特性，几乎所有能够公开查阅的证券数据都有一定的时间有效周期。另外，证券数据具有高纬度的特征，即某一时间内的证券数据具有众多属性，每个属性体现了这一时间内数据的不同特点。针对这两点，对纷繁的证券数据进行有效组织，设计合理的相似度计算方法，可以事半功倍。

2证券数据

基于证券数据的特点，在计算相似度之前，对证券数据进行了必要的预处理。2.1数据格式设计由于证券数据具有较多影响其走势发展的因素，文章首先选取了其中可能对相似度结果影响较大的几维，包括：开盘价，收盘价，涨跌额，涨跌幅，最低价，最高价，成交量（手），成交金额（万）。其中涨跌额，涨跌幅是开盘价、收盘价的冗余，故而舍弃。最终选取确定参与运算的数据包括：开盘价，收盘价，最低价，最高价，成交量，成交金额。同时，证券数据具有明显的时间特性，因此所有数据以时间为主线关联。由于个股数据容易作，发现其内在规律较为困难，文章选取了上证指数作为研究对象。最后，为了计算机程序能够快速地读取数据，保证数据的轻量化，文章最终将证券数据格式设计成XML形式。XML格式的数据可以很好地保留初始数据清晰的组织结构，同时XML是一种轻量的数据文件，相对于数据库形式的数据存储方式，处理速度更快，很适合用来存储海量的证券数据。2.2数据预处理证券数据经过有效的格式封装后，仍然可能含有大量的噪声，影响计算结果，需要进行预处理。原始数据中各个维度数据的量纲不同。比如：成交金额的绝对值远远大于开盘价的绝对值。这种情况在相似度计算中可能会造成较大的误差。因此，文章中数据的预处理主要针对不同维度之间，数据的标准化，其中所用到的标准化处理公式为：公式（1）将数据转换到共同标度的区间[0.0，1.0]，消除量纲的影响。同时，对非数值形的数据进行数字化。

3相似度结果检验

研究中，选取了上证指数从2012年的4月到2013年4这一年的日线数据，进行了相似度计算。为了验证相似度的结果，选取4个特殊的时间节点，加以分析说明。四组数据分别是2012-05-04，2012-09-06，2012-10-08和2012-12-05的上证数据，这几日数据的具体走势图，如图1所示。对这四组数据进行相似度计算，结果如表1所示。将相似度计算结果和K线数据进行对比，进行分析。从图1可以看出，2012-05-04和2012-12-05的上证指数分别位于短期内的峰值和谷值，经过计算，两日数据的相似度仅为0.5942446，是表1中最小的值，与K线相符。图1中，2012-09-06和2012-10-08两日的走势非常相似，均为下降通道中的一个小拐点，相似度计算结果显示，两日数据的相似度高达0.9441344，与K线相符。另外，图1中还可以看出，2012-09-06，2012-10-08和2012-12-05三日数据都处于谷值，具有一定的相似性。但是，与2012-09-06和2012-10-08这两日不同的是，2012-12-05的数据是一波大幅拉升的起点。相似度计算结果显示，2012-09-06和2012-10-08两日的数据与2012-12-05的数据相似度都接近0.77，符合K线图走势。

4结束语

文章对证券数据的特点进行了分析研究，设计了轻量级的证券数据样本格式，选取了合适的相似度计算方法，对以时间为单位的高维证券数据进行了相似度计算。通过与上证数据K线图的比较，验证了该相似度计算结果与实际情况较为符合。目前，文章的检验测试，仅仅用于上证指数数据，对更为复杂的个股数据或者其他分类数据的相似度计算，是今后需要深入研究的方向。另外，文章的相似度计算结果，在具有明显特征的样本点上取得了较好的结果，对于特点不明显的一般数据，计算结果如何检验，还需要进一步研究。

参考文献

[1]杨风召，朱扬勇.一种有效的量化交易数据相似性搜索方法[J].计算机研究与发展，2004，41（2）：361-368.

[2]谢明霞，郭建忠，张海波，等.高维数据相似性度量方法研究[J].计算机工程与科学，2010，32（5）：92-96.

作者：姜丽单位：上海应用技术学院

以时间为单位的证券数据研究

热门标签更多>

热门推荐更多>

以时间为单位的证券数据研究

热门标签 更多>

热门推荐 更多>

热门标签更多>

热门推荐更多>