ある会社に1,000人の社員がいて、その社員を対象としてアンケート調査を行った。全員に聞きたいところだが、皆忙しそうだし期間も限られているので、 50人だけをサンプルとして選んで質問に回答してもらうことにした。50人の選び方はできるだけ代表性があるように無作為抽出法によった。これは新聞社などの世論調査でサンプルを抽出する方法と同じである。
ところでアンケートで本当に知りたいのは、選ばれたサンプルの社員の意見ではない。サンプルはあくまで便宜的に選ばれたサンプルにすぎない。知りたいのは1,000人の社員全体についてであって、これを「母集団」と呼んでいる。これと同じように世論調査の母集団は、ふつう全国20歳以上の男女個人(約1億人)である。
アンケート結果に従って全社員の意見を推定しようというのが「母集団の推定」で、正しくは母集団についてのある値の推定である。もしアンケートで「社員旅行はA地、B地、C地のどこに行きたいか」と聞いて、それぞれ25人、15人、10人の回答を得たとする。すると全社員の意見は、アンケート結果を計1,000人になるように拡大して…

…と推定することによって得られる。
メーカーが一部の消費者や小売店データから商品の市場規模(マーケットサイズ)を概算できるのも同じ理屈である。たとえばある商品の1世帯平均購入額を 360円とすれば、全国4000万世帯とすると、360×4000=144億円がマーケットの大きさとなる。また毎年、政府が発表している国民総支出 (GNP)や国民総支出の計算にも、一部の企業調査や家計調査などの数字が利用されているはずである。
* その1…まず問題は無作為に選んだ一部対象者のデータをただ拡大するだけで、その推定値がどれだけ信頼できるかである。上の例でいえば
など、これについては本シリーズの「標本誤差」という項目で論ずることにしたい。
* その2… 単純に拡大推定ができない場合もある。1年間に何回ゴル フをやるかを知りたい。そこでゴルフ場で利用者を無作為抽出して「あなたはこの1年間に何回ゴルフをしましたか」と質問する。そして「平均回数×ゴルフ人 口」の式で延べ回数を計算する。これで正しい結果が得られるだろうか。答はノー!
理由はゴルフ回数の多い人ほどサンプルに選ばれやすいので、推定値は過大に出てしまうからである。正しい推定式については皆さんへの宿題としたい。