統計のお勉強

統計学、というか統計処理はその実体が分からないところが多い。

よく多変量解析で「◯◯という変数を入れると、単変量では有意であった△△という変数が有意でなくなった。これは◯◯という変数で調整されたからだ」ということが言われる。しかし、そもそも変数はお互い独立じゃなかったっけ、とか、調整される、というのは計算的にはどういうことなのか、説明してみろと言われるとよく分からない。

で、こうした多変量解析時の本当の中身のところを含めて統計を再度勉強してみたくなった。で、数理統計の本を読み始めると、まず気付くのは多変量解析の詳しいところまで書いてある本はあまり多くなさそうだ、ということ。なので多変量解析の詳しいところは後回しにしてまず数理統計の教科書を読み進める。

次にボレル集合がどうこう、と出てくる。一応この三つの条件を満たすものがボレル集合ですよ、とは書いてある。しかし、一体何故この集合が突然出てくるのか分からない。なので調べてみると、数理統計をしっかり理解したければ確率論を勉強すべし、と言っている人がいた。

そこで確率論の教科書を読み始めると、確率論とは測度論のことなり、という人がいた。

なので、測度論って何と思って調べるとどうやらルベーグ積分に関係しているらしい。ということで大昔に買ってたぶん全然読まなかったルベーグ積分の本を読み始めたのだけれど、とにかく集合がどうこう、ということばかり出てくるので、集合論の本を読んでみた。あ、いや、実際にはルベーグ積分の本を何冊か読んでみて一向に分からない、というのも間にはさまるのだけれど。

おそらく集合論有理数の数全体は可算無限個(ℵ0)だけれど、実数全体は一段階多いよ(ℵ)、そして集合関数はさらに一段階多い、ということなのだろうと思う。順序集合の話は関係なさそうと思ったので今のところは読んでいない。

今度は多少用語になじみが出てきたのでルベーグ積分の本を読み返すが、どうにも抽象的な数学は当たり前のことの連なりのようにしか見えないのを読んでいるうちにいつの間にか論理的なつながりが分からなくなってしまう、という恐ろしい代物で、全然理解が進まない。

ただ、例えば[0,1]の区間有理数の時1、それ以外の実数の時0という関数を0から1まで積分したときにリーマン積分では答えが求まらないけれど、ルベーグ積分は関数の値域から逆に定義域を照射することによって測度を定義可能とするというしかけなのではないか、というあたりまでは理解した。自信ないけれど。でもこのことを言うためにどの教科書も長々とあれこれ書いているのは必要なのだろうか。

で、戻って、この測度論が確率論にどう寄与しているのか、ということなのだけれど、これがまだイマイチ分からない。つまり確かに測度論をベースに組み立てると論理的にすっきりするのかもしれないけれど、測度論でないと説明できないことがあるのか、というあたりが全然理解できていない。個人的には確率変数や期待値の定義がすっきりできるのか、とおもったのだけれど、そこにまで理解が至っていない。

いや、確率変数や期待値(E[X])は実におかしな概念ではあるのだ。統計の教科書で計算式を見るとふんふん、なるほど、と思ってしまうけれど、よく考えてみるととてもおかしいわけなので。

ということでそこそこのレベルの理解に達することができるのか、途中でイヤになって投げ出してしまうか、そのあたりなのだ。