340 likes | 411 Views
ティックデータのフィルターリングとクリーニング 森谷博之 オックスフォードファイナンシャルエデュケーション http//www.quasars22.co.jp. 平成 14 年度第 1 回統数研/総研大「経済学」研究会 プログラム 日時: 2002 年 7 月 19 日 1 : 00‐2 : 00. ティックデータ. ティックデータとは一般的には呼び値のことである。 単一の価格 買値と売値 買値または売値 買値、売値、取引価格 中値. ティックデータ. ティックデータの用途 トレーディング トレーディングシミュレーション 学術研究 リスクマネージメント.
E N D
ティックデータのフィルターリングとクリーニング森谷博之オックスフォードファイナンシャルエデュケーションhttp//www.quasars22.co.jpティックデータのフィルターリングとクリーニング森谷博之オックスフォードファイナンシャルエデュケーションhttp//www.quasars22.co.jp 平成14年度第1回統数研/総研大「経済学」研究会 プログラム 日時:2002年7月19日1:00‐2:00
ティックデータ ティックデータとは一般的には呼び値のことである。 単一の価格 買値と売値 買値または売値 買値、売値、取引価格 中値
ティックデータ ティックデータの用途 トレーディング トレーディングシミュレーション 学術研究 リスクマネージメント
ティックデータ 入手先 OlsenDataAG :高頻度データ提供会社 http://www.olsendata.com CQG : チャート・グラフィクス提供会社 http://www.cqg.com GTIShttp://www.realtimedata.ch/financial.htm Berkeley Options Database http://www.haas.berkeley.edu/finance/opdata.htm
ティックデータ データエラー 人為的なエラー 故意のエラー 故意ではないエラー システムエラー
ティックデータ DecimalErrors TestQuotes RepeatedQuotes QuoteCopying ScalingProblem
ティックデータ フィルター・クリーニングの必要性 エラーの存在 さまざまな分布形状 データの出所の違いと信頼性 時間間隔の複雑性 建値情報の意味の違い
ティックデータ フィルター・クリーニングの役割 悪いデータを除く 悪いデータを訂正する データのクオリティーを判断する
ティックデータ 学術研究 : データのクオリティー トレーディング シミュレーション : データの取引可能性 ・トレーディング リスクマネージメント : データの定常性
ティックデータ 手法1 目視によるチェック システムと目視によるチェック システムだけによるチェック
ティックデータ 手法2 単一の市場のデータ 単一のデータ 複数のデータ 複数の市場データ 単一のデータ 複数のデータ
ティックデータ HFDF-1993 Data Set Description CCYY-MM-DD (GMT) bid askcountry/city bank filter 1990-03-25 23:59:14 1.7188 1.7198 344 01 0000 1 1990-03-25 23:59:30 1.7185 1.7195 036 02 0058 1 1990-03-25 23:59:38 1.7190 1.7200 392 01 0053 1 1990-03-25 23:59:44 1.7190 1.7195 344 01 0056 1 1990-03-25 23:59:56 1.7185 1.7192 036 02 0065 1 http://www.olsendata.com/
ティックデータ CQG Contract Date Session Time Price (T) (M) (C) JY1995U 19950731 0 1730 11424 A N N JY1995U 19950731 0 1730 11413 B N N ... JY1995U 19950731 1 0002 11376 B N N JY1995U 19950731 1 0002 11394 A N N ... JY1995U 19950731 2 0720 11465 T N N JY1995U 19950731 2 0720 11464 T N N http://www.cqg.com
為替のティックデータの例ドル円 頻度分布(価格の差)為替のティックデータの例ドル円 頻度分布(価格の差)
為替のティックデータの例ドル円 頻度分布%(価格の差)為替のティックデータの例ドル円 頻度分布%(価格の差)
為替のティックデータの例ドル円 頻度分布(価格の差)為替のティックデータの例ドル円 頻度分布(価格の差)
為替のティックデータの例ドル円 頻度分布(スプレッド)為替のティックデータの例ドル円 頻度分布(スプレッド)
為替のティックデータの例ドル円 頻度分布%(スプレッド)為替のティックデータの例ドル円 頻度分布%(スプレッド)
為替のティックデータの例 銀行ではアシスタントディーラーがデータインプット それぞれのベンダーに対して異なる人がインプット ブローカーのボイスをそのままリピートすることもある インプットする人のポジションが故意に価格に影響する 1993年以前は大台もインプット、現在は大台は自動的に入る ブローカーにおいてもほぼ同じことが言える。
フィルター 生データー>第1フィルター ー>計算ー>第2フィルター ー>クリーンデータ
olsendata 特徴 TrustCapitalの導入 指数移動平均 時間の重視 ボラティリティ-の予測 ファットテイル 時間枠 データの訂正
olsendata 生データ 最も単純な チェック 計算 Scalar filtering window の決定 EMAの計算期間が決まる ExpectedVolatiltiyの計算期間が決まる 新しいデータが計算期間に加わるかどうかは Level filterとpair filtering により決まる。 古いデータは300日後には自動的に排除 P>0 BidOfferSpread>0 • 質のよいデータであれば期間は短い • このWindowに含まれ るデータの信頼性 • は新しいQuoteが来るたびに変わる • 外されたデータの信頼性は固定される
olsendata 生データ 最も単純な チェック 計算 FullQuote Filter データを買値・売値・ 売値買値のペアー 価格を必要に応じて変形する Log(P) Log(P-Pmin) など P>0 BidOfferSpread>0 変形の理由 分布を単純にする 定常性を確保する
olsendata 生データ 最も単純な チェック 計算 FullQuote Filter Univariate Filter DecimalError ScalingError SpecialFilter C=min(Cbid,Cask,Cspread)
olsendata 生データ 最も単純な チェック 計算 FullQuote Filter Univariate Filter Multivariate Filter DecimalError ScalingError SpecialFilter C=min(Cbid,Cask,Cspread)
olsendata Ctotal=C[t(C1)+t(C2)],C(T)=0.5+0.5T/Sqrt(1+T2)、T(C)=(C-0.5)/Sqrt(C(1-C))
olsendata LevelFilter 為替の場合スプレッドに用いる
olsendata PairFilter
olsendata 結果 期間 データ数 Reject USDJPYJan89-Dec89683,5550.49% USDJPYJan99-Dec991,324,4210.48%
簡単フィルター為替レートドル円の例 1)最大値・最小値でのフィルターリング 2)ペアーになっていないデータははじく 3)スプレッドが0.15以上のものははじく 4)現在の買値が前の買値より±0.5以上であれば現在のデータはUnqualified になる。 5)現在の売値が前の売値より±0.5以上であれば現在のデータはUnqualified になる。 6)すべての計算が終了した後にUnqualifedが含まれているペアーを除く。