シロート統計学講座「其の4」
「其の3」では統計学初心者が押さえておくべき11種類の統計解析を示しました。
しかし、それぞれがどんな統計解析なのか、まだイメージできない状態だと思います。
▼其の3がまだの方はこちら▼
今回は、11種類の統計解析のうち、比較的理解しやすい①~⑥の統計解析について説明します。
①独立した2群間の連続変数を比較する
②対応のある2群間の連続変数を比較する
③独立した2群間の比率を比較する
④対応のある2群間の比率を比較する
⑤独立した3群以上の間の連続変数を比較する
⑥対応のある3群以上の連続変数を比較する
前回説明したように、これらには共通のパターンがあり「独立した」or「対応のある」、「2群間」or「3群以上」、「連続変数」or「比率」の用語が各文章で入れ替わっているだけでした。
これらの統計学用語について理解すれば、上の①~⑥の統計解析がイメージできるようになると思います!
「独立した」と「対応のある」
ではまずは「独立した」と「対応のある」という統計学用語について説明します。
ここでは例を使って説明してみましょう。
例えば2群間で体重の平均を比較する場合、2群の構成として以下の2パターンが考えられます。
独立した2群
1つ目のパターンは全員が異なる人物で群が構成されている場合です。
α群はA、B、C、D、Eさんで、β群はF、G、H、I、Jさんで構成されるような場合です。
これはサンプル全員が別々の人物であり独立した2群といいます。
対応のある2群
2つ目のパターンは同じ人から2回体重を測って比較する場合です。
A、B、C、D、Eさんで構成される群の体重の平均をとり、1年後に再度同じメンバーで体重の平均をとって、1年前との比較を行うような場合です。
この場合、2群は同じメンバーで構成されており、時系列での変化となります。
このような2群のことを対応のある2群といいます。
つまり「独立した」とは各サンプルが独立していることを表し、「対応のある」とは個々のサンプルにおける介入前後の平均値の比較などのように両群に対応がある場合のことをいいます。
「2群」と「3群以上」
次に「2群」か「3群以上」かという説明ですが、これは言葉通りです。
2つの群間で比較するのか、3つ以上の群間で比較するのか、ということです。
つまり、2群で比較する場合と3群以上で比較する場合で、使用する統計解析が異なります。
初学者が起こしやすいミスとして、3群の比較をする際に2群ずつで比較してしまうミスがあります。
例えばA群、B群、C群で体重の平均を比較したいときに、A群-B群、B群-C群、C群-A群を順に比較していく、というミスです。
当然、私もやったことあります(笑)
最初のころは「これでいいんでしょ?」と普通に思ってました。これがなぜダメかというと、統計解析を何度も繰り返すと、偶然に有意差が出てしまう確率が高くなってしまうからです。
「連続変数」と「比率」
次は「連続変数」と「比率」という用語についてです。
これを理解するためにはデータの尺度について知っておく必要があります。
データの尺度とは、採取するデータの種類のようなものです。
患者さんのデータを集める時に、どんなデータをとるか想像してみましょう。
例えば患者さんの体重や性別とかはほぼ確実にとりますよね。あと理学療法の世界でいうとMMTの評価をデータとして集めることもあります。
体重、性別、MMTはそれぞれどんな尺度なのでしょうか?
連続変数
まず、数値で定量的に表されるデータのことを連続変数といいます。
「体重」は40kg、50kgというように数値で表されるデータですよね。
ですので、体重は連続変数という尺度になります。
理学療法評価で言えば握力(kg)や歩行速度(m/s)なども連続変数に当たります。
連続変数は無限に取り得る値です。
細かく言うと連続変数は「比例尺度」と「間隔尺度」に分かれますが、この講座ではその違いには触れません。数値で定量的に表すデータを連続変数と捉えて頂いて大丈夫です。
名義変数
次に男性・女性のように順序の関係がないものを名義変数と呼びます。
ですので、性別は名義変数に当たります。
他の例としては、血液型(A型、B型、O型、AB型)なども名義変数に当たります。
名義変数は「どちらが上」というような区別はできず、単に「同じか」「異なるか」という区別のみが行える尺度です。
順序変数
最後にMMTは順序変数という尺度になります。
順序尺度は、MMTの0、1、2、3、4、5のように順序づけられたものを指します。
名義変数は「男性・女性」のように順序の関係はありませんが、順序変数には順序があります。
MMTは5に近づくにつれて良い結果を表します。
要するに、順序変数は検査などでスコアリングしたデータと考えると分かりやすいです。
腫瘍の進行度ステージⅠ、Ⅱ、Ⅲ、Ⅳや、HDS-Rによる点数(0~30点)なども順序変数に当たります。
数値で表されるものもありますが、連続変数と違って、取り得る値は無限ではありません(例えばMMTでは0~5までしか取り得ない)。
尺度の違いで使用する統計解析は異なる
これらの尺度の違いによって、使用する統計解析が異なります。
もう一度①~⑥の統計解析をみてみましょう。
①独立した2群間の連続変数を比較する
②対応のある2群間の連続変数を比較する
③独立した2群間の比率を比較する
④対応のある2群間の比率を比較する
⑤独立した3群以上の間の連続変数を比較する
⑥対応のある3群以上の連続変数を比較する
これをみると連続変数を比較する場合と、比率を比較する場合があることが分かりますね。
連続変数を比較というのは名前の通りで、連続変数を尺度としている場合に使用する統計解析になります。つまり、平均値(もしくは中央値)を群間で比較するものです。
▼平均値と中央値について知りたい方は▼
一方、比率の比較というのは名義変数を尺度としている場合に使用します。
例えばA群とB群の間で、男性の割合を比較する場合などです。
A群は10名中3名が男性でした(30%)。
そしてB群は10名中6名が男性でした(60%)。
この30%と60%は統計学的に有意な差があるのかを検定することを比率の比較と言います。
3つ目の変数である順序変数は、後々詳しく説明することになりますが、とりあえず連続変数での比較に含まれると覚えておいてください。
つまり
●比率を比較する → 使用尺度は名義変数
となります。
まとめ
以上、「独立した」と「対応のある」、「2群」と「3群以上」、「連続変数」と「比率」の用語について説明しました。
ここでもう一度①~⑥の統計解析をみてみましょう。
①独立した2群間の連続変数を比較する
②対応のある2群間の連続変数を比較する
③独立した2群間の比率を比較する
④対応のある2群間の比率を比較する
⑤独立した3群以上の間の連続変数を比較する
⑥対応のある3群以上の連続変数を比較する
意味不明だった文字列が、少しイメージを持って読めるようになったでしょうか。
これらの統計解析がどんな比較をしているのか、なんとなくイメージできるようになればOKです。
次回は、確認テストを行ってみましょう。
▼其の5に続く▼
コメント