データマイニングベンダーが採用するデータマイニングの方法論

Last-modified: 2008-05-26 (月) 17:37:33

各ベンダーが提唱するデータマイニング方法論

データマイニングを行う上でのステップとして、各ベンダーはそれぞれで方法論を採用している。
各方法論はその対象の範囲などが異なるため、その内容自体で優劣などの差を付けることは困難であるが、ビジネスプロセスも含めた全体の流れとしてとらえるか、ツールの構成としてとらえているかなどの差がみられる。
主な方法論としては以下のようなものがあげられる。

 

SEMMA

SAS社が唱える方法論。SEMMAとはデータマイニングにおける各ステップをSample(サンプリング)、Explore(探索)、Modify(データ加工)、Model(モデル作成)、Assess(評価)というステップにわけ、その頭文字をとっている。SAS社のEnterprise Minerではこの各ステップにノードなどが分けられている。
このSEMMAはツールの中での操作方法や操作の流れなどを主要な着眼点としてとらえている。
SAS社のページ

CRISP-DM

CRISP-DMはCross-Industry Standard Process for Data Miningの略となっており、SPSS、NCRダイムラークライスラー、OHRAなどが中心となって確立されているデータマイニングの方法論。6つのフェーズより構成されており、順番に「Phase1:ビジネスの理解」「Phase2:データの理解」「Phase3:データの準備」「Phase4:モデリング」「Phase5:評価」「Phase6:展開/共有」などのステップが想定されている。
ツールがサポートする範囲だけではなく、データマイニングを始めるためのビジネス上の理解や、その結果の共有方法なども入っているため、ツールだけではなく、プロジェクトなどの流れも想定していると考えられる。

SPSS社のページ
CRISP-DMのページ

DMAIC

DMAICはシックスシグマの改善活動におけるプロセスをまとめたもので、Define(定義)、Measure(測定)、Analyze(分析)、Improve(改善)、Control(コントロール)の頭文字をとっている。この手順はKXEN?社などが採用しており、データマイニングプロジェクトをするための標準的な方法論として採用を行っている。
KXEN社のページ