論文 TKDE'17, Time Series Management Systems: A Survey

Cyber Physical Systems*1の文脈における時系列データベース(TSDB)のサーベイ論文。論文中では、TSDBをTime Series Management System(TSMS)と表現されている。 Stream Processing*2とApproximate Query Processing(AQP) *3 TKDEは、SIGMODやVLDBといったトップのデータベース系国際会議と並ぶような位置づけのジャーナルらしい。 論文 BTW'17, Survey and Comparison of Open Source Time Series Databases - ゆううきメモ と比べると、読んでみて相当高品質という印象。 ただし、InfluxDBやPrometheusなど、アカデミアにでていないインダストリアルなTSDBはサーベイ対象ではない。

  • [1]: Jensen, Søren Kejser, et al. "Time Series Management Systems: A Survey." IEEE Transactions on Knowledge and Data Engineering, vol.29, no.11, 2017, pp. 2581-2600.

論文のPDFファイルを [1710.01077] Time Series Management Systems: A Survey からダウンロードできる。

先行研究との差分はなにか

おそらく明記されていないが、現存するTSMSのオーバビューだけでなく、次世代のTSMSの洞察をあたえることがこのサーベイで目指すこととされている。

サーベイ手法の要点はなにか

  • Google ScholarでTSMSのオーバビューを把握し、関連するカンファレンスや用語、関連リサーチャーを発見する。論文の参考文献、引用文献、全ての会議とジャーナル(SIGMOD、IEEE Big Data、PVLDBなど)、著者の論文(DBLPとGoogle Scholar、プロフィールページの組み合わせ)をデータスースとした。
  • 次の13の基準でTSMSを比較している。
    • Architecture, Year, Purpose, Motivatinal Use Case, Distributed, Maturity, Scale Shown, Processing Engine, API, Approximation, Stream Processing, Storage Engine, Storage Layout
  • TSMSを次の3つのカテゴリに分類している。
    • internal data stores、external data stores(GorillaやBTrDB、Druidなど)、RDBMS extention
  • 各TSMSについて、性能、デプロイメント、機能などについて定性的にまとめている。

議論はあるか

  • 分散TSMSは既存の外部DBMSを用いて開発されている一方で、内部データストアをもつTSMSは主に非分散システム。内部データストアTSMSは主に組み込みデバイス用かPoCであり、既存の外部DBMSをもつTSMSはビジネスクリティカルなところで使われる。
  • ドメインエキスパートがユーザ定義のメソッドやモデルを使って拡張できるインタフェースをもつものは一般的でない。
  • TSMSはリアルタイム更新、ユーザ定義関数によるストリームプロセッシング、historical dataとincoming dataの両方に対するクエリ実行を提供すべきである。

興味深い関連論文はなにか

多すぎるので割愛。TSDBに特化した部分であるpre-aggregation、approximate queryの各アーキテクチャの詳細や、AQPやNoSQLの比較などデータベース一般の観点で読みたいものがいろいろでてきた。

*1:IoTに近い用語

*2:ここでは、書き込み時の丸め処理、サンプリングなどを指す

*3:AQPは、サンプリングなどのテクニックで現実的なクエリ実行時間に落とし込む技術の総称という理解