国民生活基礎調査匿名データ 解析実習を行いました
京大SPHの講義「健康情報学II」にて、国民生活基礎調査匿名データの解析実習を行いました。
匿名データとは、行政機関等が統計法に基づいて実施した統計調査によって集められた調査票情報を、特定の個人又は法人その他の団体の識別ができないように加工したものです。学術研究及び高等教育の発展に資すると認められる場合は、一般の方も、利用することができます。今回は、高等教育目的として、厚生労働省に申出を行い、健康情報学IIにて、データを利用した解析実習を行いました。
【講義名】
・健康情報学II(科目責任者 健康情報学・高橋由光)
【日時・場所】
・2017/2/3 3-4限(13:00-16:15)
・京大医学部構内G棟3F演習室
【概要】
・統計法および国連の公的統計の基本原則を中心に、公的統計データの二次的利用の規制の必要性および推進のバランス、調査対象の秘密保護について講義を行った。
・国民生活基礎調査(平成22年)匿名データB(世帯票・健康票・所得票・貯蓄票)を用いて、調査票、データレイアウト及び符号表の理解、csvファイルの読み込み、JMPを用いた記述統計を行った。なお、グループワーク形式で実施した(1グループ毎(5-6名)、スタンドアロンPC 1台、CD 1枚)。
【参加人数】
・25名(教員含む)
【参加者の声】
・SPHに在籍していても、このような機会がなければ生データに触れることはなかった。作業行程を知ることができ、良い経験となった。いかに不安を伴う作業であるか痛感した。良い題材であり、もう少し取り組んでみたいと感じた。
・適度な分量かつ適度な難易度だったと思います。ほぼ自分でハンドリングさせてもらったので、よくわかりました。自分で手を動かせる人と見ているだけの人に分かれてしまうので、本当はみんながデータ触れるといいんですけど、予算の都合上難しいですね。そのうち、こういった公的なデータを使った研究もできたらいいなと思いました。ありがとうございました。
・初めてこのようなデータセットを作って、解析するという経験をしました。全く何も知らなかったので難しく感じましたが、一番の印象はまず初めにデータセットを適切な形に整えることの重要性、大変さを感じました。今回はマニュアルを提示していただきましたが、実際に自分が行うときにできるかは不安が残ります。ただ、なんとなくのイメージはつかむことができました。公的データの二次利用は、潜在的に活用の可能性が大いにあると感じました。
・今まではすでに構築されたきれいなデータベースをもらうことが多く、今回のような複雑なデータ形式を触ることは初めての経験で大変勉強になりました。ありがとうございました。
・THIS IS A VERY USEFUL LESSON FOR US TO LEARN HOW TO USE JMP. BUT NOT EVERYONE CAN DO ON COMPUTER SINCE THERE ARE 5 PEOPLE IN A GROUP.
・最初の列と行の入れ替えに時間がかかってしまった。できれば他のデータの評価もできればよかった。準備が大変だったかと思いますが、大変勉強になりました。自分でも挑戦できればと思います。ありがとうございました。
・論文に記載されている方法に準じて、実際のデータを使用した解析ができ、理解が深まりました。
・提供されたexcelの仕様がもっとデータハンドリングしやすい形式になれば良いと思いました。
・大変興味深かったです。データ定義書をじっくり読んでみたいと思います。社会的背景と臨床的な何かが繋がるとよいのですが。
・データクリーニングの部分が実践的で非常に有用でした。実際の手続きに関する言及もあり、テーマを見つけて実際に研究できるような気もしました。
・①生データを解析できる形にするのは、初めてで有意義であり、知ることができて良かった。しかし、自分一人でもう一度行うのは自信がない。②解析できる形にするのが大変でした。もう少し使いやすい。データの形であると、とても嬉しく思います。
・JMPに触る機会が多くないので貴重な機会でした
・いい勉強になりました。英語論文を作る練習に一度このデータで解析して論文化を試みる経験はいいのではないかなと思いました。授業準備が何より自分の勉強になったのが良かったです。
・誰かが入力したデータを、扱える形に工夫できれば、解析はあっという間に行えた。今回、とても分かりやすい指南書があったため悩まずに行えたが、実際自分で研究に用いる際は、データを傷つけることがないように気を付けて修正する必要があると感じた。
・慣れていなかったので、正直難しかったです。しかし、慣れるにはやらないといけないので、、、勉強になりました。ありがとうございました。
・今回はデータクリーニングに手間がかかりました。半分くらい調理済みのデータも用意してもよいかと考えました。また、手順のagendaかフローチャートの全体像を最初にしめすとわかりやすいと思いました。また、さまざまなitスキルかつ言語の人にむりに作業させているように思いました。エディタのソフトインストールがばらつていたりしていました。このあたり、混乱しました。でも、研究室で限られたリソースで精いっぱいよい授業をされようとなさるところがすばらしいと思い、感謝しています。
・データの扱い方はまだPCスキルやJMPがよく分かっていないこともあり難しく感じましたが、こういったデータを利活用していくことで環境や生活状況、行動の健康との結びつきやその傾向を深く探ることができる可能性があるので非常に興味深い実習でした。個人的にもとても関心を持ちました。ありがとうございました。
・厚労省のデータを扱える機会を作っていただき、大変感謝しています。(以前から、楽しみにしていました) 実際にデータを触ることで、解析前にどのような下準備が必要なのか、理解を深めることができました。データ利用への苦手意識がへりました。厚労省のデータではないにしろ、既存のデータセットを用いた研究に興味があるので、とても良い経験になりました。
・本日の講義のように、実際のデータを使用した解析ソフトの使用方法をもっと学びたいと思いました。非常に有意義な授業でした。ぜひまたこのような機会があればと願います。ありがとうございました。
・実際のデータを用いて実習ができ、とても良かったです。
・Quite difficult to understand the tutorial on the slides if not doing by ownself.
【参考情報】
厚生労働省 匿名データの提供について
http://www.mhlw.go.jp/toukei/itaku/tokumei.html
Shibuya, et al. BMJ. 2002 Jan 5;324:16-9.
https://www.ncbi.nlm.nih.gov/pubmed/11777798