確率・統計学
ナビゲーションに移動
検索に移動
集合[編集 | ソースを編集]
- Āのように上に棒を書くことで集合Aではないという意味になる。
- AかつBが、A∩B。AまたはBが、A∪B。
- 集合の要素の個数の公式として、n(A∪B)=n(A)+n(B)-n(A∩B)、n(A∪B∪C)=n(A)+n(B)+n(c)-n(A∩B)-n(B∩C)-n(C∩A)+n(A∩B∩C)といったものがある。
- ベン図に書くなどして確かめてみよう。
- ベン図が問題なく使えるのは集合が3つの時まで。
- ド・モルガンの法則は覚えといて損はない。
- ド・モアブルの定理と紛らわしい。だが向こうは複素数の話であり、内容は全く異なる。
- 問題にはしにくいのに、現代数学の根本をなすきわめて重要な考え方だったりする。
- ベン図は証明に使えない
- 関数と異なり恣意的な図を描けやすいため。
- 必要条件と十分条件に戸惑う
- 右が十分で左が必要なのだが、なぜこうなるの?と最初思ってしまう。
- 実例を一つ覚えておくべし。それに当てはめればOK。
- 右が十分で左が必要なのだが、なぜこうなるの?と最初思ってしまう。
- 積・和集合は分配公式が成立する。
- 高校数学で多用される場合分けの理論的基礎。
- A⋂Ā=∅(空集合)、A⋃Ā=U(全体集合)であることが当然の前提となる。
- 小説でありそうな「AであってAでない」というものは数学には存在しない。
順列・組み合わせ[編集 | ソースを編集]
- 計算式にびっくりマークが出てくる。
- CとかPも出てくる。
- Cはcombinationらしい、そのまんまだ。
- そういや高校の時の数学の先生が、メールやLINEでびっくりマークが出てくると、何かの組合せではないかと思ってしまうとか言ってたな。
- CとかPも出てくる。
- 円順列や数珠順列といった概念が出てくる。
- 習わないが一応完全順列もある。
- nチームで行うリーグ戦の総試合数はnC2(n個から2個を選ぶ組み合わせ)。
- 例えば4チームなら4C2で6試合。
- ただしホーム&アウェーで2回ずつ対戦する場合はその2倍、つまりnP2(n個から2個を並べる順列)。
- n人のキャラクターのカップリングの数はnC2。
- 攻めと受け(例えばAとBのカップリングならA×BとB×A)を別々に数える場合はnP2。
- 重複を認めた順列・組み合わせもある。公式はあるが教科書では発展扱い(通常は手計算)となる。
確率[編集 | ソースを編集]
- 大体の場合初歩的な計算はサイコロの目で覚えることになる。
- n/6、n/36、n/216などの分数がある場合は大体これの答え。
- n/1296、n/7776・・・と続く。
- n/6、n/36、n/216などの分数がある場合は大体これの答え。
- 「順番が決まっているか否か」で確率の数値が異なるのが地味に厄介。
- X人の男子とY人の女子からZ人の役職を選ぶ…的な問題には大体このトラップが仕掛けられている。
- 降水確率が10%なのに強い雨が降ると怒る人がいる。降水確率って「降る確率」であって、「降雨強度」とは別物なのにね。
- 学校でならうものではないが、「モンティホール問題」がすぐに理解できない。
- 3つのうち1つがアタリで、回答者が1つを選択したところで、司会者が選択しなかった2つのうち、ハズレを1つ開けてくれる。このあと、回答者はもう一度残った2つ(始めに選択したものと、選択せず司会者がハズレとしなかったもの)から選び直すことができる。このとき、選択肢を変えた方があたる確率が高い。
- 正直、ウィキペの解説はわかりにくい。
- 1%の確率と聞くと100回試せば一回は出ると解す人が多いが実際には独立した試行だと100人がそれぞれ100回引いても3割以上の人が外す。
- 具体的に書くと当たり1、外れ99の計100個の球が入った箱から1個取り出し確認したら戻す方式。
- 冷静に電卓叩けばパチンコする気や宝籤を買う気が吹き飛ぶこと請け合い。
- そういう人達ほど確率や統計を使って予想したがり、また統計学の発展に寄与してきた数学者も得てしてギャンブラーだったという現実。ちなみに「文系の私に超わかりやすく数学を教えてください!」の著者(東大教授)も競馬好き。
- てか天井エナや潜伏エナで普通に期待値プラスになるしな。
- そういう人達ほど確率や統計を使って予想したがり、また統計学の発展に寄与してきた数学者も得てしてギャンブラーだったという現実。ちなみに「文系の私に超わかりやすく数学を教えてください!」の著者(東大教授)も競馬好き。
- ソーシャルゲームのガチャに熱くなる人なんかもこの辺りを勘違いしている場合が多い。
- 100回中1回出る→1%は正しそうだけど、逆は成り立たないということ?
- ただし、中身が有限個で出るものが決まっている場合(ボックスガチャ・コンプガチャ)はこの限りでない。
- 「少なくとも〜」という表現が出てきたら、余事象の出番。
- 小学校では、「確からしさ」という。
- 中学だと理論的要素がない
- 中学校数学でも、負の数・文字はあまり使われない。
- 負の数が出るのは統計のみで、平均からのずれを扱う場合のみ。中学校ではそこまでやらない。
- 元々は賭博の損益計算をするために考え出された。ちなみに結論は「一番いいのは賭博をしないこと」だったそうな。
- コンピューターゲームでは計算の都合上、n/255かn/65535が使われる事が多い(16進数2桁と4桁)。
- 基本的に中学では離散確率を扱い、まとめて数え上げる計算(上のP,Cとか)はしない。高校ではこの計算はするが離散確率が一般的で、確率の合計や期待値の計算はそのまま足し算で計算する。
- 確率に変数が出てくることもほとんどない。せいぜい漸化式関連(数列との複合問題)か統計関連で少し触れる程度。
- ちなみに大学受験で漸化式は異常に正答率が低いので他の受験生と差がつけやすいポイント。
- 東大受験で頻出する上に他の受験生の正答率が低いので対策強化しておくことがオススメ
- ちなみに大学受験で漸化式は異常に正答率が低いので他の受験生と差がつけやすいポイント。
- 確率に変数が出てくることもほとんどない。せいぜい漸化式関連(数列との複合問題)か統計関連で少し触れる程度。
- 統計など、確率変数(いろいろ定義があるが、確率の値を出すのに入力するパラメーター程度のもの)が連続値を取る際は、確率の和や期待値などの計算は積分で行う。
- 積分の定義(区分求積法)を見ると、確率と定義が瓜二つであることがわかる。
- 積分で確率の和を求める実例として「ビュフォンの針」がある。線を引いた紙に落とした針がその線をまたぐかどうかの確率で、計算すると円周率を含む値になる。つまり、コンピューターシミュレーションで円周率の概算値が求められる。
- サイコロのほかに玉を使うのも定番。いろいろな色の玉が出てくるが、なぜか金色の玉だけは出てこない。
統計[編集 | ソースを編集]
- 平均値以外にも中央値、最頻値なるものがあることを知る。
- 中央値は実用でも意外と使い道がある。
- 最頻値は階級分けを適切に行わないとあまり意味のないデータになる。
- 第1四分位点と第3四分位点も忘れずに。
- 平均値、中央値、最頻値は中学で習わなかったっけ?
- 標準偏差の計算のとき、なんでいちいち二乗してから足すんだろう、めんどくせえのになあ、と思う。
- 二乗しないと偏差の正負が打ち消し合って和が0になるため。2乗和の平方根以外に、絶対値を合計することでもそれは回避可能(平均偏差)。
- しかし、絶対値記号を外すのが難しいため、簡単に取り扱える2乗が好まれる。最小2乗法も似た感じ。
- 二乗しないと偏差の正負が打ち消し合って和が0になるため。2乗和の平方根以外に、絶対値を合計することでもそれは回避可能(平均偏差)。
- 授業で正式には偏差値なるものは教えないが、それでもみんないつの間にか知っている。
- 一方の値が増えるともう一方の値も増える/減る傾向がある場合、正/負の相関があるといえる。
- データA,Bがある場合、共分散ABをA,Bの標準偏差で割ることで相関係数が求められる。
- おおむね、その大きさが0-0.2の場合無相関、0.2-0.4の場合弱い相関、0.4-0.7の場合中程度の相関、0.7-1で強い相関とされる。1に近づくほど散布図に表した時に直線的な分布になる。
- 相関係数が+1だと右上がりの1次関数に、-1だと右下がりの1次関数になる。
- 相関係数の定義は「直線に乗るかどうか」である。このため、相関係数が0だとしても2データが独立に動いているとは限らない。例えば、2データがy=x2の関係にあり、かつデータxがy軸対称に分布している場合など。
- おおむね、その大きさが0-0.2の場合無相関、0.2-0.4の場合弱い相関、0.4-0.7の場合中程度の相関、0.7-1で強い相関とされる。1に近づくほど散布図に表した時に直線的な分布になる。
- データA,Bがある場合、共分散ABをA,Bの標準偏差で割ることで相関係数が求められる。
- 会社入ってから、実際のデータ(製造物の重さとか)を測定したら、「正規分布」に近い形になって、「自然の法則に従うもんだ」とちょっと感動したりする。
- 「大数の弱法則」と「中心極限定理」。ランダムサンプルの分布は正規分布に従う。
- 確率論が基礎になっており、これなしでは成り立たない学問である。
- 従って、確率論のテキストでは統計に入ることが多い。
- 平均値と期待値は計算自体は一緒であるが意味は異なる。前者はすでに得られたデータについて、後者は予想値である。
- 割合や相関関係は計算で簡単にわかるが、それがすぐに因果関係に結びつくとは限らない。
- 例えば「日本では凶悪殺人犯や末期がんで死亡した人の9割以上が白飯を日常的に食べていた」というものが挙げられる。日本では白飯が主食なのだから数値が高くなるのはごく当たり前であり、それは凶悪殺人犯や末期がんで死亡した人でなくても同じである。しかし論理を飛躍させて「白飯に含まれる物質によって心身をおかしくする」とするのは誤りである。もっともこれは推論にて命題の逆は成り立たないことからも言える。
- 10年ほど前まではかなり偏見のある独特の分野だった。
- 2000年代ころまでは、特に日本の漫画ではこれが得意なキャラやこれを駆使するキャラは弱く情けないやられ役として書かれがちであった。
- 「データは意味がない」みたいな精神論や経験論に価値を否定されがちだった。
- そのせいなのかなんなのか極端に苦手意識を持つ人やこの分野をまったく解けない人も多く、平均点が低く狙い目でもあった。
- 潮目が変わったのは2013年に統計学は最強の学問であるという書籍がプチバズったのと、その数年後にalphagoによってAIバブルが起きてその余波でビッグデータやデータサイエンティストの価値が見直されたのもあるかもしれない。
- しかし、もっと昔に統計学が得意な人間をたくさん雇っていれば人力でAIディープラーニングのようなことができたのではないかと思う…。結局膨大なデータからそれっぽい法則性を見つけ出し一般化するのは統計学者の得意技でもあった。
- ギャンブル漫画界においてデジタルキャラがやられ役になりにくくなったのはその10年前のとつげき東北の書籍の影響も大きかったかもしれない。
偏差値[編集 | ソースを編集]
- 中学受験を経験している者は小学生の時からお世話になる数字。
- 偏差値によってクラスが変わることも。
- 受験業界では身近であるが、実は統計の一分野であることを知られないことが多い。
- 平均点は偏差値50、偏差値10の違いは、標準偏差1に相当する。
- そのため、偏差値40~60には全体の約3分の1、偏差値50~70には全体の約95%が入るらしい。
- 但し、これは、得点分布が正規分布とみなせる場合に限られる。
- 平均が偏差値50に来るようにしただけであって、0~100の範囲に収めたわけではない。そのため極端なケースでは偏差値マイナスや100以上になることもある。
- そのため、偏差値40~60には全体の約3分の1、偏差値50~70には全体の約95%が入るらしい。
- 値は母集団に左右されるため、「どの母集団での数値か」が重要。母集団を明らかにせず、偏差値だけを使って煽る輩もいるので要注意。
- 数学的な意味を完全に外れてしまい、単なる格付けのスケールになっている事もある。
- 例: 70〜 難関、60〜70 上位、50〜60 中堅、40〜50 下位、〜40 底辺
- ちなみに受験界隈では、やたらと偏差値70以上の自称進学校が多い。本来なら上位2%のはずなのにね。
- 進学に価値をおいてるところしか宣伝しないから矛盾しないのでは?うちは偏差値50ですとはいわんだろう。
- センターの志願者数が大体50万人くらいだとすると、大体1万人くらいが偏差値70以上になるはずなのですが...。
- ちなみに受験界隈では、やたらと偏差値70以上の自称進学校が多い。本来なら上位2%のはずなのにね。
- 例: 70〜 難関、60〜70 上位、50〜60 中堅、40〜50 下位、〜40 底辺
- 一応標本が極端に偏れば、偏差値0や100以上になる場合もあるそうだ。
- 河合塾の模試で、結果と一緒にもらえる情報誌に得点と偏差値の対照表があり、前者の例が見られる。ただしこの偏差値を取るには国数英600点満点で595点以上必要。
IQ[編集 | ソースを編集]
- 知能指数。MENSAに入るのに必要らしい。
- 標準偏差によって異なるが、標準偏差16で上位2%の言語性IQ130で入会可能。
- 6歳児にもテストを行い、70以上あれば普通の小学校に入れる。
- 医学的定義ではIQ70未満が「知的障害」の範囲になるため。
- 偏差値に似ているが、平均がIQ100に相当するところが異なる。
- 原理的に差異はない
- たまにパズルゲームのCMで、IQを計る事ができるという謳い文句を掲げているのがあるが、あれのIQは正確なのだろうか?
- ちなみにIQという名前のパズルゲームは実際に存在する。
- フィクションでは単純に頭の良さを計る指標として用いられている節があり、インフレがすさまじい。
- 一般的にはsd=16だが、メディアなどで数値をインフレさせたいときはあまり使われないsd=24になることも。
- たとえばBTSのRMのIQは148という情報があるが、これはsd=24の数値であり、一般的なsd=16の数値に直せば132である。それでも高いことに間違いはないしトイックの成績など子供の頃からよかったようだが。
- 一般的にはsd=16だが、メディアなどで数値をインフレさせたいときはあまり使われないsd=24になることも。
- クイズ番組やメンサ入会テストなど、一般的に言われるのは「言語性IQ」。
- 専門機関が行う検査では、「動作性IQ」も計測される。細かく区分すれば言語理解・知覚統合・作動記憶・処理速度の4種に分かれる。
- メンサ入会テストは行列推理なので動作性の知覚統合群ですよ
- 言語性IQが高いと学校の成績がいいが、実社会で評価されるのは動作性IQである傾向がある。
政治[編集 | ソースを編集]
- 世論調査や開票速報にも統計学が使われる。
- 開票速報でほとんど開票しないうちに当確が打てるのは調査ですでに予測できているから。
- 世論調査ではよく「サンプルが少なすぎる」といわれることもあるが、実際は十分なサンプル数があることが多い。
- 韓国の場合信頼区間を計算し、僅差の場合誤差範囲内かどうか提示されることもある
- 意外かもしれないが、世論調査は韓国では生データを使わない。たぶん日本でも使わないと思う。
- 性別や年齢、居住地といった属性で支持政党が異なる場合、サンプリングの段階で属性が偏ることでの結果の偏りを避けるため、性別や年齢、居住地といった属性が全国平均通りの分布になるように再重み付けして計算される。
- と思ったが、日本では生データを使っている調査が多そうだ。ある会社の世論調査では、ネット調査とリアル調査で極端な差が出ている。
- 世界的にはネット調査でも1人複数投票できない仕組みならたいしてリアルとはさがでない。たとえば中年男にネトウヨが多いとしても、人口統計に基づいて再配分するため、年齢や性別によるサンプルの偏りが是正されるからだ。逆に「固定電話による調査なんて高齢者しかでない」というのも、年齢再配分で若い人の固定電話に出たのが大きく重みづけされて再計算されることで是正されるはずなのだが。
- 世界的にはほぼ数パーセントの誤差で世論調査と実際の比例得票率が一致するのだが、日本の場合は世論調査の政党支持率と比例得票率に極端な差がでる。また、世界的には比例得票率が政党の指標としてもっとも重要視され英語版Wikipediaでも比例得票率順にソートされるのだが日本は比例を軽視しているという面もあるか。
- 世界的にはネット調査でも1人複数投票できない仕組みならたいしてリアルとはさがでない。たとえば中年男にネトウヨが多いとしても、人口統計に基づいて再配分するため、年齢や性別によるサンプルの偏りが是正されるからだ。逆に「固定電話による調査なんて高齢者しかでない」というのも、年齢再配分で若い人の固定電話に出たのが大きく重みづけされて再計算されることで是正されるはずなのだが。