国民生活基礎調査匿名データ 解析実習を行いました(2018年度)
京大SPHの講義「健康情報学II」にて、国民生活基礎調査匿名データの解析実習を行いました。
匿名データとは、行政機関等が統計法に基づいて実施した統計調査によって集められた調査票情報を、特定の個人又は法人その他の団体の識別ができないように加工したものです。学術研究及び高等教育の発展に資すると認められる場合は、一般の方も、利用することができます。今回は、高等教育目的として、厚生労働省に申出を行い、健康情報学IIにて、匿名データを利用した解析実習を行いました。
【講義名】
・健康情報学II(科目責任者 健康情報学・高橋由光)
【日時・場所】
・2018/12/21(金)3-4限(13:00-16:15)
・京大医学部構内G棟3F演習室
【教材】
講義資料ハンズオンのPDFはこちら
【概要】
・統計法および国連の公的統計の基本原則を中心に、公的統計データの二次的利用の規制の必要性および推進のバランス、調査対象の秘密保護について講義を行った。
・国民生活基礎調査(平成22年)匿名データB(世帯票・健康票・所得票・貯蓄票)を用いて、調査票、データレイアウト及び符号表の理解、csvファイルの読込、JMPを用いた記述統計・ロジスティック回帰分析等を行った。なお、グループワーク形式で実施した(1グループ毎(5-6名)、スタンドアロンPC 1台、CD 1枚)。
【参加人数】
・29名(教員、ティーチングアシスタント含む)
【参考情報】
厚生労働省 匿名データの提供について
http://www.mhlw.go.jp/toukei/itaku/tokumei.html
Shibuya, et al. BMJ. 2002 Jan 5;324:16.
https://www.ncbi.nlm.nih.gov/pubmed/11777798
【参加者の声】
・単にソフトを使うだけでなく、実在のデータを使用させていただいて分析できたので、作業結果にも大変興味を持つことができた。
・自分の研究にも活かせそうな話し合いができました。複数名で話し合うと新たな視点が得られるので新鮮です。また、解析手法についても再度学べたので大変ためになりました。今後の研究に応用していきたいです。
・2次情報の解析を体験するとても良い機会となりました。まさに社会健康医学系大学院でしか経験できない貴重な体験だと思います。今後,NDBやDPC,国民生活基礎調査などのリアルワールドのビッグデータ解析が重要な分野になってくると思いますので,このような機会で学習することができてとても有意義でした。今後厚生労働省の統計担当の方のお話(講義)もぜひ拝聴したいと思いました。
・今回、初めてこのようなデータが利用できることを知り、非常に勉強になりました。このような大規模かつ公的なデータを収集することは、政府以外では困難かと思いますので、有効利用がますます進めばよいと強く感じました。また、私事ですが自身の研究において300人から質門票の結果を集めるために非常に苦労しました。そのため、二次的なデータの利用の迅速性を感じました。
・実際に、国民生活基礎調査のデータを使用してみる授業は、興味深かったです。どのようなデータがどのような形で入っているのかを知ることができました。また、JMPを用いた解析に関しましても、ダミー変数を作成してlogistic回帰分析を実際に行ったことが、これまでなかったので、勉強になりました。有難うございました。
・個人的なパソコンで解析できたらさらに良かったです!セキュリティー上しょうがないですが…
・情報量は非常に多く、研究としても非常に興味がある項目が多いので面白い内容だったが質問が雑な項目もあるように感じた。
・論文に沿ったデータの取り扱いやデータの分布の評価を評価することがとても勉強になりました。
・生のデータを解析までに変数を加工しなければならないことが良く分かりました。
・実際のデータセットを利用しての解析は、とても興味深く有意義な体験でした。ぜひ自分でも申請して利用してみたいと思いました。
・とても興味深い解析内容でした!JMPの練習もできて、とてもよかったです!
・Thank you very much for providing such an interesting class. There’s not much chance using JMP and the opportunity of accessing MHLW’s anonymous data is even more precious. I have to say I really had a very valuable experience today. The atmosphere in the class is also very good.
・非常に興味深い内容でした。データを具体的に取り扱うことができる実習は貴重で、とても勉強になりました。
お借りしたデータについてですが、このような膨大なデータがあるのであれば、いつか使ってみたいと思います。さらに都道府県等の地理的な情報があると、自然実験のような形で曝露非曝露を分けた研究ができてより良いのになぁと思いました。
・ダミー変数作成が興味深かった。
・実際のビッグデータを扱い解析を経験できたことは、とても有意義でした。ダミー変数の作り方、解釈がよくわかりました。
・ダミー変数の作成方法など、これまで知ることができなかった作業工程の方法を知ることができて、有意義な時間でした。データを使用する際のセキュリティなども、大変であることが分かっていい経験となりました。
・資料もわかりやすく、充実した実習になりました。このようなデータが利用可能なことを知らなかったのですが、もっと広く活用されるべきデータであると感じました。
・実際のデータを扱うことで、データハンドリングの難しさを実感することができました。また、自分が明らかにしたいことが、明確になっていない状況では、変数設定をする際に実際のデータからの誤分類バイアスが生じうることを認識することができました。もう一点、今回の実習内容の主旨とは少し離れるかもしれませんが、データクリーニングの重要性や使用する統計ソフトでの変数設定の重要性についても改めて実感することができました。自分にとってとても良い経験となりました。
・実際に研究で健診データを用いることがあるが、グループワークで「こんなに多くの調査結果があるから結果が出るのであって、実際に自分で集めるのは難しいよね」という発言があり、このような国のデータを用いることが一つの手段だと改めて感じることができた。
統計手法について、私はいつも自分でプログラムを書いて実行しており、簡単なアプリケーションがあることも知ることができた。何故そうなるのか、という統計的な知識を知ったうえでアプリケーションを活用することは便利でいいと思う。
・貴重な経験ができ、見識が広がりました。
・最高に有意義な授業でした。データベースを使った研究をしたいと思っても、実際に処理してみる機会でも無いとなかなかイメージが湧きにくかったり、ハードルが高いと感じて諦めてしまったりしがちなので、こういった授業は本当に心底有難いです。今までデータベースに対して腰が引けてはなから諦めていた、あるいは考えた事すらなかった研究者さん達も沢山いらっしゃると思うので、こういった機会があると新しい可能性が開けて良いと思います。せっかく貴重なデータベースがあるのにあまり利用してくれないというなら、まさにこういった授業こそ必要なのでは、と思いました。貴重な機会を与えてくださり誠に有難うございました。
・実際のデータを使って研究の流れを追って確認することができ、非常に勉強になりました。自分の研究を行う上でも参考になると思います。