国民生活基礎調査匿名データ 解析実習を行いました(2019年度)
京大SPHの講義「健康情報学II」にて、国民生活基礎調査匿名データの解析実習を行いました。
匿名データとは、行政機関等が統計法に基づいて実施した統計調査によって集められた調査票情報を、特定の個人又は法人その他の団体の識別ができないように加工したものです。学術研究及び教育の発展に資すると認められる場合は、一般の方も、利用することができます。今回は、教育目的として、厚生労働省に申出を行い、健康情報学IIにて、匿名データを利用した解析実習を行いました。
【講義名】
・健康情報学II(科目責任者 健康情報学・高橋由光)
【日時・場所】
・2020/01/17(金)13:00-16:15、02/07(金)12:00-14:30
・京大医学部構内G棟3F演習室
【教材】
講義資料ハンズオンのPDFはこちら
【概要】
・統計法および国連の公的統計の基本原則を中心に、公的統計データの二次的利用の規制の必要性および推進のバランス、調査対象の秘密保護について講義を行った。
・国民生活基礎調査(平成22年)匿名データB(世帯票・健康票・所得票・貯蓄票)を用いて、調査票、データレイアウト及び符号表の理解、csvファイルの読込、JMPを用いた記述統計・ロジスティック回帰分析等を行った。なお、グループワーク形式で実施した(1グループ毎(3-5名)、スタンドアロンPC 1台、CD 1枚)。
【参加人数】
・21名(教員、ティーチングアシスタント含む)
【参考情報】
厚生労働省 匿名データの提供について
http://www.mhlw.go.jp/toukei/itaku/tokumei.html
Shibuya, et al. BMJ. 2002 Jan 5;324:16.
https://www.ncbi.nlm.nih.gov/pubmed/11777798
【参加者の声】
・統計ソフトを使用して実際に手を動かすことで、発表されている論文の内容をより深く理解することができたように感じました。エクセルやJMPの使い方を学ぶこともできたのが良かったです。
・JMPでデータ分析をたくさん練習しました。とても便利なソフトウェアと思います。
・データベースのデータを整理して解析まで繋げるという一連のプロセスについて、実際に手を動かす作業を通じて具体的なイメージを持つことが出来ました。 一方で、データベースにない項目については解析に入れられないため、二次解析のもどかしさも感じました。
・講義にて、データの二次利用が推進されているという流れを聞き、今後こういったデータを扱う機会の時のために知識を付けることは必要であると知りました。データを受け取ってから解析までの準備作業は地道な作業ではありますが、適切に準備することは不可欠であるため、適切なデータの処理方法を知り慣れることは大切なことであると改めて認識いたしました。実習形式で実際のデータを取り扱えたことで、データの適切に扱うことの重要性をより実感することができました。
・ビッグデータを実際に扱うことで、取り扱いの際の注意点や煩雑さを学ぶことはできました。特に符号票の項目名と実際の匿名データを適合させる作業をもっと簡単にできないものかと思った。座学だけでは、こういったことは気づけないのでハンズオンは有意義です。
・公的統計データの二次的利用の流れや、提供データの構造について学ぶことができ、公的統計データを活用した研究の流れについての理解が深まりました。また、統計ソフトのJMPの使い方についても確認することができ、大変勉強になりました。SPHならではの授業だと思感じましたし、この実習を楽しみにしていましたので、受講できて良かったです。
・国民生活基礎データのような大きなデータが、利用可能であることを初めて知った。更に、実際にデータを扱うことにより、解析が可能であることも分かった。良いリサーチクエスチョンがあればやってみたいと思った。また、excelの様々な技術を知ることができたのも良かった。
・統計ソフトウェアで解析しようと思っても、その前段階でもらったデータを編集するところでつまづくのでとても勉強になりました。実際のデータを使ってやってみるのは現実感が湧いてとても良かったです。
・実習では 1:質問票の質問項目の具体的な内容 (数年前、質問に答える側になったが、価値観をとう項目があったことは全く覚えていませんでした) 2:解析を行うためのデータ変換方法 3:JMPでの解析方法 4:論文の図表と出したデータが同じことを確認し、データを出すまでの一連の流れとタイムラインを知ることができました。 たまたま、生活内容に関する研究にリクルートされて参加していますが、にたような質問や項目が細かすぎるものが多く回答がかなりの負担です。答えながら、終わりごろにはデータの質が悪い結果になっていると自覚しています。 厚生労働省の質問項目は少ない訳ではありませんが、項目がとても整理されていて答えやすいとおもい、ここから出るデータの質の信頼性が担保されるように考えられていると思いました。
・これまで大規模なデータを扱ったことがなく、操作が難しい印象をもっていましたが、グループワークで実習できたことで身近に感じられた気がします。1回の授業で終わってしまうので、また操作できる機会があればうれしく思います。
・とても丁寧にご準備いただいている授業でした。 基本的な手順も含め理解が深まりました。
・実際のデータを加工して統計解析まで行う講義はあまり無かったので、自分の研究をこれからすすめる上で非常に役立つ実習だと思いました。特にラベル付けやダミー変数の作成などのデータの加工については、実際にやってみないと身につかないように思います。このような実習をする機会があって良かったです。
・高橋先生の細かい配慮と工夫がちりばめられており、大変参考になりました。実際に国民生活基礎調査がどのようなデータセットで手渡され、利用できるのか、そして申請などのプロセスもよく理解でき、活用して研究ができそうなイメージが沸きました。また、解析の前処理の方法とその大変さも実感でき貴重な経験でした。グループワークで良かったです。
・同意書を事前提出したり、当日は実習室に鍵をかけて管理したりするなど、とても厳重な体制の中、どのような実習が行われるのか、始まる前は正直とても不安でした。しかし始まってみると、厳重なのは情報の管理についてだけで、実習そのものは丁寧な実習手順書、親切な指導、わかりやすい講義と、申し分のないよい実習でした。実際のデータを触りながら、論文中の解析の再現をするという普段経験することのない貴重な機会をいただきました。また、個人情報というものはそれだけ気を遣って管理しなければならないものなのだと再認識させていただくことができました。
・生データを使って実習することで、解析するまでに多くの処理をしなければならないことがよくわかりました。JMPを使うのは初めてでしたが、データを実際に解析しながら使い方を学ぶことができたのとても理解が進みました。
・実際のデータを用いて実践できたので、データを使う際に注意すべき点や効率的に分析するための手法が具体的に理解できました。
・ありがとうございます。ダミー変数への理解が深まって大変興味面白い内容でした。