2010年04月21日
疑う事からはじめる定量分析講座 〜その1〜

株式会社ビービット
ユーザビリティコンサルタント
薮 義郎

WebAntennaのような広告効果測定ツールやアクセス解析ツールなどで、統計的な数値を扱う際は、平均値を用いることが多いと思います。平均値が重要な指標であることは確かですが、それだけでは実態を踏まえない議論となり、施策を打ち間違ってしまう危険性があります。

今回は、平均値を用いる際の注意点と、それを踏まえて作られたウェブアンテナ・ユーザ行動分析ツール(β版)の工夫についてご紹介します。

今回のポイント

  • 平均値で議論しているだけでは数字の罠に陥ってしまう。
  • 例外的なユーザがいると、平均値が実態からずれることがある。
  • 「中央値」を使うことで、例外的なユーザの影響を排除でき、正しい分析が可能になる。

リードタイムは平均値ではなく、「中央値」で測る

ビービットでは、2010年3月17日よりWebAntennaのコンバージョンレポートを用いて、広告の間接効果を分析・集計するユーザ行動分析ツールβ版をExcelマクロにて提供開始しました(【プレスリリース】ウェブアンテナの間接効果分析機能を提供開始:PDFファイル)。
このツールを使うとレポート結果に、例えば、コンバージョンまでのリードタイムの分布がグラフとして表示され、その下にリードタイムの「中央値」が表示されます。

ユーザ行動観察ツールβ版で出力されるレポート例

リードタイムの「中央値」とは、ユーザをリードタイムの小さい順に並べた時に、データの並んだ列のちょうど真ん中にいるユーザのリードタイムのことです。例えば、5人のリードタイムが1日, 2日, 2日, 3日, 30日なら、この「中央値」は2日となります。(図2参照)

統計学における中央値の定義

ユーザ行動分析ツールβ版では、よく使われる平均値ではなく、「中央値」をなぜ使っているかというと、平均値が必ずしも実際の状況を表さない場合があるからです。

極端にリードタイムの長いユーザが平均値を引き上げる

「コンバージョンまでのリードタイムが平均4日である」と聞いたとしましょう。このとき、初回接触から3〜5日で大抵のユーザがコンバージョンするのだろうと考え、リードタイム別のユーザ数を棒グラフで表すと図3のようになっていると考えると思います。

釣り鐘型の分布(正規分布)の例

しかし、実際には図4のように極端にリードタイムが長いユーザが計測されることが多いです。

統計学における中央値と平均値の違い

図4では、ほとんどのユーザのリードタイムが0〜2日に集中しているにも関わらず、平均値をとると4日になってしまいます。少数ですが、リードタイムが 30日、60日と長い例外ユーザが全体的に平均値を引き上げてしまっているからです。

例外的なユーザがいる場合、平均値をとると実態にそぐわないものになってしまうことが多いのですが、「中央値」をとるとそのようなことはありません。「中央値」を取ろうとしてデータを小さい順に並べると、例外は列の「端」に少数しかないため、「中央」の値に影響することがないからです。

上記のような理由から、ウェブアンテナのユーザ行動分析ツールβ版では、正確にデータの分析ができ、ユーザの動向を把握できるように、指標によっては平均値ではなく中央値を算出しています。

ユーザの行動や広告との接触を詳細に分析するには
関連コラム
明日からはじめる!アトリビューション分析基本の3ステップ セミナー資料を無料公開中 ダウンロードはこちら
  • アトリビューションの具体的な分析方法を解説
  • 分析事例も多数掲載
機能を詳しく解説した資料や、管理画面を見たい方はこちら

体験版(無料)の管理画面を操作して、使いやすさと機能を確認いただけます

機能の詳細や導入事例を確認いただけます

  • 体験版デモ画面を見る
  • 資料ダウンロード