2010年04月21日
疑う事からはじめる定量分析講座 〜その1〜
ユーザビリティコンサルタント
薮 義郎
WebAntennaのような広告効果測定ツールやアクセス解析ツールなどで、統計的な数値を扱う際は、平均値を用いることが多いと思います。平均値が重要な指標であることは確かですが、それだけでは実態を踏まえない議論となり、施策を打ち間違ってしまう危険性があります。
今回は、平均値を用いる際の注意点と、それを踏まえて作られたウェブアンテナ・ユーザ行動分析ツール(β版)の工夫についてご紹介します。
今回のポイント
- 平均値で議論しているだけでは数字の罠に陥ってしまう。
- 例外的なユーザがいると、平均値が実態からずれることがある。
- 「中央値」を使うことで、例外的なユーザの影響を排除でき、正しい分析が可能になる。
リードタイムは平均値ではなく、「中央値」で測る
ビービットでは、2010年3月17日よりWebAntennaのコンバージョンレポートを用いて、広告の間接効果を分析・集計するユーザ行動分析ツールβ版をExcelマクロにて提供開始しました(【プレスリリース】ウェブアンテナの間接効果分析機能を提供開始:PDFファイル)。
このツールを使うとレポート結果に、例えば、コンバージョンまでのリードタイムの分布がグラフとして表示され、その下にリードタイムの「中央値」が表示されます。
リードタイムの「中央値」とは、ユーザをリードタイムの小さい順に並べた時に、データの並んだ列のちょうど真ん中にいるユーザのリードタイムのことです。例えば、5人のリードタイムが1日, 2日, 2日, 3日, 30日なら、この「中央値」は2日となります。(図2参照)
ユーザ行動分析ツールβ版では、よく使われる平均値ではなく、「中央値」をなぜ使っているかというと、平均値が必ずしも実際の状況を表さない場合があるからです。
極端にリードタイムの長いユーザが平均値を引き上げる
「コンバージョンまでのリードタイムが平均4日である」と聞いたとしましょう。このとき、初回接触から3〜5日で大抵のユーザがコンバージョンするのだろうと考え、リードタイム別のユーザ数を棒グラフで表すと図3のようになっていると考えると思います。
しかし、実際には図4のように極端にリードタイムが長いユーザが計測されることが多いです。
図4では、ほとんどのユーザのリードタイムが0〜2日に集中しているにも関わらず、平均値をとると4日になってしまいます。少数ですが、リードタイムが 30日、60日と長い例外ユーザが全体的に平均値を引き上げてしまっているからです。
例外的なユーザがいる場合、平均値をとると実態にそぐわないものになってしまうことが多いのですが、「中央値」をとるとそのようなことはありません。「中央値」を取ろうとしてデータを小さい順に並べると、例外は列の「端」に少数しかないため、「中央」の値に影響することがないからです。
上記のような理由から、ウェブアンテナのユーザ行動分析ツールβ版では、正確にデータの分析ができ、ユーザの動向を把握できるように、指標によっては平均値ではなく中央値を算出しています。
- ユーザの行動や広告との接触を詳細に分析するには