時系列データの管理概念と特徴
設備管理、環境モニタリング装置、PLC等のデータは下図のような構造を持っています。このような時系列データを含むデータの塊(例:CSVファイル)には、一般的に以下のような特徴があります。
複数の測定項目(カラム)
温度1、温度2、日射量1、日射量2といった複数のセンサーデータが横並びに記録されています。これらの値は同一タイムスタンプに対して異なる物理量や異なる測定位置のデータとして構造化されています。
共通のタイムスタンプ列
測定値に対していつ測定されたかを示す日時情報が記録されています。このタイムスタンプは時系列データにおいて最も重要な要素であり、データを時間軸上で整理・検索・分析するための主キーとなります
データ品質の多様性
計測環境では通信障害やセンサー異常により、値が欠損したり異常値が記録されたりします。これらは「N/A」(欠損値)や「ERR」(エラー値)などの文字列として表現され、数値データと混在しています。
データ構造転換(ポイントID)
従来のCSV形式の列ベースデータを「ポイントID(管理点)」という概念で根本的に異なる方法で管理します。図の中央部に示されているように、各測定項目(温度1、温度2など)が独立した時系列データストリームとして扱われます。これにより、データ構造がシンプルになるとともに、より柔軟な拡張性と検索性能を実現しています。
統一的なデータ管理
異なるシステムやセンサーから生成されるデータでも、CLOUDSHIPでは統一された形式で保存できます。
例えば、5分間隔のセンサーデータと1時間間隔の集計データが混在していても、同じ管理手法で一元化できます。これにより、従来は接続が困難だったデータ ソース間の相関分析や統合管理がとても簡単に実現できます。
正常値/異常値の柔軟管理
N/AやERRなどの異常値も同じPointID内に正常値と並べて保持できます。従来のデータベースでは型の不一致などで扱いづらかった異常値も、そのままの形で保存しつつ、必要に応じてフィルタリングや変換処理が可能です。これにより、データの欠損パターンの分析や、異常発生の状況把握など、より深い洞 察を得ることができます。
時系列データベースに関する技術解説
ポイントIDはCLOUDSHIPにおける時系列データ管理の基礎となる識別子です。データ発生点を起点とする、各時系列データストリームに一意の名前を付け、「どこで」「何を」測定しているかを表現します。IEEE1888の考え方をベースにしながらも実用性を重視し(`http://`を削除)、階層構造による直感的な理解と柔軟な設計を可能にしています。適切に設計されたポイントID体系は、データの検索・管理効率を高め、小規模から大規模システムまでシームレスにスケールする時系列データプラットフォームの礎となります。
CLOUDSHIPは、数値だけでなく「N/A」「ERROR」などの異常値も同一ポイントIDで管理できる柔軟性が特徴です。他の時系列データベースが異常値を別途管理する中、CLOUDSHIPでは異常値を含む多様なデータタイプを混在管理できます。
異常値を「ノイズ」ではなく「シグナル」として積極的に活用し、設備の健全性評価や予防保全の最適化、運用改善に役立てることが可能です。異常値の発生パターンから設備劣化の予兆を検知したり、オペレーションと異常発生の相関を分析したりすることで、データ駆動型の保全高度化を実現します。
CLOUDSHIPのAPIは時系列データを効率的に操作するための機能を提供しています。Where機能で数値/文字列の条件指定によるデータ抽出、GroupByとSelect機能を組み合わせた時間間隔ごとの集計処理(平均値、最大値など)、Filter機能による値変化点の検出が可能です。
スキーマレスな設計により、同一ポイントIDに数値とエラー文字列が混在する独自の格納方式により「ERROR」などの異常値も含めた分析が容易になります。
これらの機能を組み合わせることで、温度データの範囲指定と時間単位集計や、機器状態変化、異常発生の検出など、複雑な分析クエリを簡潔に記述できます。