データレイク、データウェアハウス、データマート

数年前に一度調べたが、完全に頭から消えているので再度調べてみた。

  • データマート
    • 小規模
    • あるスコープに限定された情報
      • 部門とか
  • データマートの種類
    • 従属型
      • データウェアハウスのサブセットを保存
      • データウェアハウスからクエリしたデータを保存するので、データウェアハウスへの依存が強い
    • 独立型
      • データソースから抽出、処理したデータを保存
    • ハイブリッド型
      • データウェアハウスおよびデータソースから収集したデータを保存
  • データウェアハウス
    • ビジネス全体の情報を格納
    • 広範囲
    • 構造化されている
    • 生データを収集してデータが作られる
  • データレイク
    • 生データ
    • 非構造化
    • 重複データや意味のないデータが含まれる可能性あり

参考

aws.amazon.com

www.ibm.com

speakerdeck.com