統計学で理解すべき用語①

シロート統計学講座

シロート統計学講座「其の4」

「其の3」では統計学初心者が押さえておくべき11種類の統計解析を示しました。でもまだどんな統計解析なのか、イメージが沸かない状態だと思います。

▼其の3がまだの方はこちら▼

統計解析にはどんな種類があるのか
シロート統計学講座「其の3」

 

今回は、11種類の統計解析のうち、比較的理解しやすい①~⑥の統計解析について説明します。

理解しやすい統計解析

①独立した2群間の連続変数を比較する
②対応のある2群間の連続変数を比較する
③独立した2群間の比率を比較する
④対応のある2群間の比率を比較する
⑤独立した3群以上の間の連続変数を比較する
⑥対応のある3群以上の連続変数を比較する

前回説明したように、これらには共通のパターンがあり「独立した」or「対応のある」、「2群間」or「3群以上」、「連続変数」or「比率」の用語が各文章で入れ替わっているだけでした。つまり、これらの統計学用語について理解すれば、上の①~⑥の統計解析のイメージができるようになります。

なるべくシンプルに説明します!

スポンサーリンク

「独立した」と「対応のある」

ではまずは「独立した」と「対応のある」という統計学用語について説明します。ここでは例を使って説明してみましょう。例えば2群間で体重の平均を比較する場合、2群の構成として以下の2パターンが考えられます。

独立した2群

1つ目のパターンは全員が異なる人物で群が構成されている場合です。α群はA、B、C、D、Eさんで、β群はF、G、H、I、Jさんで構成されているような場合です。

これはサンプル全員が別々の人物であり独立した2群といいます。

対応のある2群

2つ目のパターンは同じ人から2回体重を測って比較する場合です。A、B、C、D、Eさんで構成される群の体重の平均をとり、1年後に再度同じメンバーで体重の平均をとって、1年前との比較を行うような場合です。

この場合、2群は同じメンバーで構成されており、時系列での変化となります。このような2群のことを対応のある2群といいます。

 

つまり「独立した」とは各サンプルが独立していることを表し、「対応のある」とは個々のサンプルにおける介入前後の平均値の比較などのように両群に対応がある場合のことをいいます。

「2群」と「3群以上」

次に「2群」か「3群以上」かという説明ですが、これはそのまんまですね。2つの群間で比較するのか、3つ以上の群間で比較するのか、ということです。

 

つまり、2群で比較する場合と3群以上で比較する場合で違う統計解析を用いるんです。

 

初学者が起こしやすいミスとしては3群の比較をする際に2群ずつで比較してしまうということですね。例えばA群、B群、C群で体重の平均を比較したいときに、A群-B群、B群-C群、C群-A群を順に比較していく、というミスです。

 

これ、私もやったことあります(笑)。最初のころは「これでいいんでしょ?」って普通に思ってました。これがなぜダメかというと、統計解析を何度も繰り返すと、偶然に有意差が出てしまうことがあるからだそうです。

「連続変数」と「比率」

次は「連続変数」と「比率」という用語についてです。これを理解するためにはデータの尺度について知っておく必要があります。

 

データの尺度とは、採取するデータの種類のようなものです。患者さんのデータを集めるとなった時に、どんなデータをとるか想像してみましょう。

 

例えば患者さんの体重や性別とかはほぼ確実にとりますよね。あと理学療法の世界でいうとMMTの評価をデータとして集めることもありますよね。体重、性別、MMTはそれぞれどんな尺度なのでしょうか?

連続変数

数値で表される定量的なデータのことを連続変数といいます。「体重」は40kg、50kgというように数値で表されるデータですよね。ですので体重は連続変数という尺度になります。

 

理学療法評価で言えば握力(kg)や歩行速度(m/s)なども連続変数に当たりますね。連続変数は無限に取り得る値です。

名義変数

次に男性・女性のように順序の関係がないものを名義変数と呼びます。ですので性別は名義変数ということになります。他の例としては血液型のA型、B型、O型、AB型なども名義変数に当たりますね。

順序変数

最後にMMTは順序変数という尺度になります。これは少し分かりにくいかもしれませんが、MMTの0、1、2、3、4、5のように順序づけられたものを指します。名義変数は男性・女性のように順序の関係がないものですが、順序変数には順序があります。MMTは5に近づくにつれて良い結果を表します。

 

要するに順序変数は検査などでスコアリングした値です。腫瘍の進行度ステージⅠ、Ⅱ、Ⅲ、Ⅳや、HDS-Rによる点数(0~30点)なども順序変数に当たります。連続変数と違って、取り得る値は無限ではありません。

尺度の違いで使用する統計解析は異なる

これらの尺度の違いによって、使用する統計解析が異なります。

もう一度①~⑥の統計解析をみてみましょう。

理解しやすい統計解析

①独立した2群間の連続変数を比較する
②対応のある2群間の連続変数を比較する
③独立した2群間の比率を比較する
④対応のある2群間の比率を比較する
⑤独立した3群以上の間の連続変数を比較する
⑥対応のある3群以上の連続変数を比較する

これをみると連続変数を比較する場合と、比率を比較する場合があることが分かりますね。

 

連続変数を比較というのは名前の通りで、連続変数を尺度としている場合に使用する統計解析になります。つまり、平均値(もしくは中央値)を群間で比較するものです。

 

▼平均値と中央値について知りたい方は▼

平均値と中央値
どうも、管理人のハル(@haru_reha)です。今回は「平均値」と「中央値」の違い・使い分けについて説明します。 平均値と中央値の定義 平均値と中央値はどちらも連続変数の代表値として使用される値ですが、どちらを使えば良いのか分から...

 

一方、比率の比較というのは名義変数を尺度としている場合に使用します。例えばA群とB群の間で、男性の割合を比較する場合などです。

A群は10名中3名が男性でした(30%)。そしてB群は10名中6名が男性でした(60%)。この30%と60%は統計学的に有意な差があるのかを検定することを比率の比較と言います。

 

3つ目の変数である順序変数は、後々詳しく説明することになりますが、とりあえず連続変数での比較に含まれると覚えておいてください。

 

つまり

●連続変数を比較する → 使用尺度は連続変数 or 順序変数
●比率を比較する   → 使用尺度は名義変数

となります。

まとめ

「独立した」と「対応のある」、「2群」と「3群以上」、「連続変数」と「比率」の用語について説明しました。ここでもう一度①~⑥の統計解析をみてみましょう。

理解しやすい統計解析

①独立した2群間の連続変数を比較する
②対応のある2群間の連続変数を比較する
③独立した2群間の比率を比較する
④対応のある2群間の比率を比較する
⑤独立した3群以上の間の連続変数を比較する
⑥対応のある3群以上の連続変数を比較する

意味不明だった文字列が、少しイメージを持って読めるようになったでしょうか。これらの統計解析がどんな比較をしているのか、なんとなくイメージができるようになれば現状ではOKです。次回は、確認のためのテストをしてみましょう。

▼其の5に続く▼

統計学用語を定着させる確認テスト
シロート統計学講座「其の5」

>>>シロート統計学講座のTOPへ戻る

コメント