母集団すなわち全体から一部の標本を抽出して調査を行い、その結果からもとの全体の値を推定するのが標本調査であるが、この際に生ずる標本値と母集団値との差が標本誤差である。この誤差がどの範囲の大きさで生ずるかは確率論に基づいて一定の式で計算することができる。標本誤差は抽出数を多くするほど小さくなり、また母集団内での個別データのバラツキが小さいほど小さくなる。
調査結果の数字はふつう平均値や比率(パーセント)で表される。したがって標本値を調査から得られた平均値や比率とすると、それらが母集団値とどれだけ食い違っているかは

として定義される。しかし母集団値は未知であるし、標本値も抽出される標本によって左右されるので、標本誤差の大きさそのものを示す式とはならない。
個々の標本誤差はわからないが、その範囲は「標準誤差」という統計値を用いて確率的に記述できるのである。それがデータの利用者にとって調査結果の信頼性にたいする保証となり、平均値なり比率なりを安心して使える限界を知らせてくれることになる。
図 標本誤差の発生

標本調査における標本の抽出方法にはいろいろあるが、単純な無作為抽出法では平均値mの標準誤差を次式で計算できる。ただしσm は平均値の標準誤差、nは調査対象数、σは母集団の個別データの標準偏差(調査データから推定)。

この値を用いて「標本平均の前後に標準誤差の1.96倍の幅をとると、母集団平均がその中に入る確率は95%である」と言い切ることができる。この範囲のことを信頼区間と呼び、その中に入る確率を信頼係数と呼んでいる。もし信頼係数を99%にしたければ標準誤差の2.58倍の幅をとればよい。
比率pの標準誤差は次式で計算できる。ただしPは母集団における比率であるが、もちろん不明なので標本値pで代用する(nがある程度大きいとき)。

この式は非常に使いやすい。もし調査対象者数が400人でその中の20%がある製品の使用者であったとすると、暗算で容易に使用率の標準誤差2%と計算することができる。それゆえ、母集団における使用率が区間16~24%内にあることが確率95%で保証される。読者もこの計算を確かめられたい。