23. Rを薦める・薦めないII (2008/3/21)
Rを薦める・薦めない に記載しているように,私は,条件付で (半数以上の) 大学院生,学部生の全てにRを利用することを薦めています。しかし,この勧め方は,Rに興味がある方すべてに,満足のいく勧め方ではありません。なぜなら,この勧め方は,初学者 + 若年層しか念頭においていないからです。私は,過去3名 (それぞれ,STATA, SPSS, JUMP ユーザ) の,私よりも知識もキャリアもある40歳前後の方から,Rを利用した方がいいか,御相談させていただく機会がありました。
その際の,私の論点は,2点です。
1. すでに,技術も地位も知識もある方なので,個人利用をするだけであるならば,
Rを利用するメリットは高くはないこと。
その理由は,すでに確立されたやり方があるため,ゼロから異なるやり方に変えると,ただでさえ,忙しい身が,さらに,忙しくなるからです。しかし,すでに技術も知識もあるため,Rに乗り換えることは,初学者よりも時間的負担はかなり少ないこと。
2. ご自身が利用している財産 (統計的な知識,データ解析の手続きなど) の技術移転をするという教育目的があるならば,Rを利用するメリットが高くなること。
その理由は,教育目的という理由が入ると,教育を受ける方の,金銭的事情などは排除できた方が教育しやすいこと,さらに,CUIベースなのでGUIよりも説明に時間を要さないからです。
この2つの説明が妥当か否かは,私のように知識もキャリアもない身では,わかりかねますが,現在の私の発達段階 (28歳,キャリア6年目) から見た,一意見です。
24. 心理学におけるRの普及III (2008/7/21)
今年も,日本心理学会第72回大会で,豊田秀樹先生の研究室主催の,Rに関連するワークショップが2件開催されるようです (Rによるデータマイニング入門,心理学に活かすベイズ的アプローチ ―MCMC入門― )。この2件のワークショップは,統計ソフトのセグメンテーションを考えると,心理学におけるRの普及に多大な影響を与えると思います。
私は,恥ずかしながらMCMCについて,全く知識がありませんので,若干の知識のあるデータマイニングに関して述べますと,有料で,すでにシェアを占めているのソフトウェアでの,データマイニングの対応状況は,おそらく貧弱であります。
具体的に述べるのは,恐縮ですが,SPSSでデータマイニングをしようとすると,138万円を超えるようです。このようなソフトウェアは,多くの場合,「研究費」という枠で購入すると思いますが,多くの研究者にとって,この額は,「研究費」で購入することが難しい金額かと思います。
ソフトウェアの金額が高い場合,多くの研究者が取る対策は,「無料のソフトウェアを使う」,または,「当該分析手法を使わない」という選択肢になると思います。
まず,「無料のソフトウェアを使う」場合,Rに競合するソフトウェアとしては,WekaやOrangeというソフトウェアがあります。
しかし,わざわざ,データマイニングをするときだけに,他のソフトウェアを使うことは, 煩雑であります。できることなら,ひとつのソフトウェアで,統計解析の仕事を終えたいと思う研究者は,多いでしょう。
次に,「当該分析手法を使わない」という選択肢を好む研究者は,大多数を占めると思います。多くの研究者は,知らない統計手法を学習するコストを捻出するほど,統計解析に労力を割きたくないと考えている気がします。しかし,データマイニングという手法は,わざわざ学習するコストを捻出する価値がある代物だと私は信じております。私は,データマイニングは,「標本サイズが増えれば必ず有意,というマジックから脱却するため」,「データの構造をより良く知るため」に,とても役立つ手法だと思っております。かくいう私は,研究プロトコル上は,データマイニングを利用することを明示していない場合でも,必ず,統計解析の初めに,データマイニングを利用して,データの構造をよく見るという作業を取っています。つまり,私にとって,データマイニングを利用する最大の動機は,データの構造を知るために他なりません。非線形な関連や交互作用を容易に気づかせてくれるデータマイニングは,多くの研究者にとって,有益な手法だと思います。
以上,述べましたように,「ひとつのソフトウェアで統計解析を終える」+「データマイニングを利用する」という2つの観点から,Rを利用することは,多くの研究者にとって,実りのあることだと思います。
次に,問題となる点は,「心理学の研究において,本当に,ひとつのソフトウェアで統計解析を終えることができるのか」という問題です。残念ながら,この問題への答えは,現在のところ「Yes & No」になると思います。理論上は,Rの柔軟性を考えると,この問題への答えは「Yes」になります。しかし,多くの心理学の研究者は,統計学者ではありませんので,「利用する統計手法の説明と,その統計手法のソフトウェアの使い方を書いた教科書」が出版されていない限り,「以前利用していた統計ソフトウェアでは利用できる手法を,Rでは利用できない (Rで計算できないことはないが,やり方が教科書に書かれていない)」という状況が生じると思います。つまり,「利用する統計手法の説明と,その統計手法のソフトウェアの使い方を書いた教科書が存在しない限り,たとえRで計算できたとしても,利用することはできない」と言うことです。
このような問題意識から,「既存の優れたリソース (教科書や論文) を有効利用して,Rでの使い方を書く」
というコンセプトでこのホームページを作成しています。また,徐々に,心理学におけるRの教科書も増えていますので,今後,より多くの研究者にとって,親しみやすい環境になっていくことが期待できます。
25. キャリアパスと統計学 (2008/9/29)
私は,心理学のキャリアが6年目になります (現在,博士後期課程3年,修士課程は2年間,研究生という社会的には無職1年間の計6年)。Rの話題と少し離れますが,統計学のユーザーである場合,キャリアパスを考えた統計学の学習をする必要性があると思っております。
私事のキャリアパスを考えると,情けないことに統計学の学習時間は,年々,確実に減少しております。初年度が1週間あたりの総合学習時間が平均90時間前後で,その内の統計学に割く割合は7:3 (統計:研究) ぐらいでした。それが,現在は,総合学習時間も減少し,1週間あたりの総合学習時間が平均70時間前後で,その内の統計学に割く割合は1:9 (統計:研究) ぐらいに変化しています。
総合学習時間が減少する理由は,体力の問題,意欲の問題,ワークライフバランスの問題など,様々な要因が複合的に働いています。次に,統計学の学習時間の割合が減少する理由は,論文執筆時間を増やす切迫した問題,複数のプロジェクトを行うという切迫した問題など,様々な要因が複合的に働いています。
このような年々,統計学の学習時間が減少する現象は,決して望ましいことではありません。理想的には,3:7 (統計:研究) ぐらいの割合で,学習時間を確保したいと思ってはいます。しかし,多くの方は,致し方なく,キャリアを進めるにつれて統計学の学習時間が減少してしまっているかと思います。このような自己反省も込めて,お伝えしたいことは,「集中した勉強量が必要な基礎的な学習は,キャリアの早い内に完了しておいた方がいい」ということであります。
具体的には,以下の4点をお勧めします。
- 多くの教科書を読めるように数学の知識を養うこと
- 基礎的な統計学の教科書 (当然,数式を基に) を完全に理解すること
- 英語の統計学の教科書を読めるようになること
- Rを使って分析できること
残念ながら,集中した勉強量を確保できなくなるほど,
上述した4点のcompetencyを獲得することが難しくなってしまいます。
|