本書を執筆したきっかけ
この本を書こうと思ったきっかけは、高校の数学の先生からいただいた一言でした。
統計が重要であることは知っている、問題の解き方も知っている。
でも、データ分析とどうつながっているのかわかりにくい。
また、統計的推測の考え方がわかりにくい。
高校数学の新課程では、データ分析や統計的推測を学びます。本に計算手順は載っていても、「統計学がデータ分析とどのようにつながっているのか」「なぜ統計的推測の概念が必要か」などといった「統計学の考え方」が、なかなか見えにくいという現場での声が上がっていたのです。
私は「これは何とかしたい、せめて解決の糸口をつかむお手伝いをしたい」という思いがこみ上げてきました。そこで、自分のこれまでの研究教育の経験を活かし、現場の方々の力になれる本を書こうと考えました。
統計学の考え方の重要性は、高校教育に限ったことではありません。企業や行政でデータを扱う実務家、研究に取り組む大学院生や学部生、統計を学び始めた人、数学や統計に興味を持った中高生など、データ分析に関わるすべての人に共通します。本書が分析を行う上で新たな視点を得るきっかけとして、皆さまのお役に立てば大変うれしく思います。
本書の概要
統計学は、データの背後にある法則や規則性を見出し、科学や産業における意思決定を支える重要な学問ですが、その学習には「実用的なデータ分析とのつながりが見えにくい」「高度な数学的知識が求められる」という二つのハードルがあります。本書は、これらのハードルを(一部ではありますが)乗り越え、統計学の魅力を理解できるよう、さまざまな工夫を凝らして書かれています。たとえば、本書では数式を「理解を深めるための道具」として位置づけ、単に式を羅列するのではなく、それぞれの式が何を意味するのかを具体例とともに丁寧に説明しています。
目次
序章 統計学の魅力と本書の位置づけ
- 1.1 統計学の魅力
- 1.2 データ分析のプロセス
- 1.3 統計学の役割
- 1.4 本書の位置づけ
- 1.5 本書では取り上げてない重要なトピック
- 1.6 本書の対象者
第I部 データ分析と統計学の接点について学ぶ
第2章 データの要約・可視化:タイタニック号のデータセットで概観する
- 2.1 データを種類別に分ける
- 2.2 量的データの要約・可視化
- 2.3 質的データの可視化
第3章 様々な統計量の成り立ち
- 3.1 標本平均,標本分散
- 3.2 データの標準化
- 3.3 標本平均,標本分散の成り立ち
- 3.4 標本共分散,標本相関係数
- 3.5 標本共分散と標本分散の関係
- 3.6 母集団と標本
第4章 確率モデルの基礎
- 4.1 確率モデルと統計的推測
- 4.2 確率分布
- 4.3 パラメータの推定
- 4.4 ベルヌーイ分布の最尤推定
- 4.5 連続分布における尤度
- 4.6 正規分布の最尤推定
第5章 統計学とデータ分析の接点:線形回帰モデルとロジスティック回帰
- 5.1 線形回帰モデル:気温からアイスクリームの支出金額予測
- 5.2 多変量への拡張と非線形化
- 5.3 ロジスティック回帰:タイタニック号の生存率の予測
第II部 仮説検定と区間推定の原理を理解する
第6章 1次元確率分布
- 6.1 本章の構成と目的
- 6.2 離散分布
- 6.3 分布関数
- 6.4 連続分布の導入
- 6.5 連続分布
- 6.6 確率分布に関するまとめ
- 6.7 確率の計算についていくつかの話題
- 6.8 確率密度関数の裾の重さから見る正規分布の成り立ち
- 6.9 比較的新しい「確率」の歴史
第7章 仮説検定と区間推定の実践と考え方
- 7.1 仮説検定の実践と考え方
- 7.2 区間推定と予測区間
第8章 多次元確率分布
- 8.1 確率変数,確率分布(多次元)
- 8.2 和の分布
第9章 期待値と分散
- 9.1 1次元確率変数における期待値
- 9.2 関数g(X)の期待値
- 9.3 分散
- 9.4 標準化
- 9.5 多次元の確率変数に対する期待値とその性質
- 9.6 定理9.4および定理9.5の応用
第10章 大数の法則と中心極限定理
- 10.1 大数の法則
- 10.2 中心極限定理
第11章 仮説検定の原理
- 11.1 推定量の分布
- 11.2 正規分布の平均の検定
- 11.3 カイ二乗適合度検定
第12章 区間推定の原理
- 12.1 区間推定の準備
- 12.2 正規分布における平均の区間推定
- 12.3 二項分布における比率の区間推定
- 12.4 線形回帰モデルにおける区間推定
おわりに:統計学の考え方を理解した後に広がる世界