国民生活基礎調査匿名データ 解析実習を行いました(2022年度)
京大SPHの講義「健康情報学II」にて、国民生活基礎調査匿名データの解析実習を行いました。匿名データとは、行政機関等が統計法に基づいて実施した統計調査によって集められた調査票情報を、特定の個人又は法人その他の団体の識別ができないように加工したものです。学術研究及び教育の発展に資すると認められる場合は、一般の方も、利用することができます。今回は、教育目的として、厚生労働省に申出を行い、健康情報学IIにて、匿名データを利用した解析実習を行いました。
【講義名】
・健康情報学II(科目責任者 健康情報学・高橋由光)
【日時・場所】
・2022/12/23(金)13:15-16:30、2022/1/6(金)13:15-16:30、2023/1/18(水)10:00-13:00
・京大医学部構内G棟3F演習室
【概要】
・統計法および国連の公的統計の基本原則を中心に、公的統計データの二次的利用の規制の必要性および推進のバランス、調査対象の秘密保護について講義を行った。
・国民生活基礎調査(平成22年)匿名データB(世帯票・健康票・所得票・貯蓄票)を用いて、調査票、データレイアウト及び符号表の理解、csvファイルの読込、JMPを用いた記述統計・ロジスティック回帰分析等を行った。
・COVID-19感染予防のため、受講者を3グループに分け、同内容を3回実施した(1名につきスタンドアロンPC 1台)。
【参加人数】
・18名(教員、ティーチングアシスタント(TA)含む)
【参考情報】
厚生労働省 匿名データの提供について
http://www.mhlw.go.jp/toukei/itaku/tokumei.html
Shibuya, et al. BMJ. 2002 Jan 5;324:16.
https://pubmed.ncbi.nlm.nih.gov/11777798/
【講義資料・過去の講義】
講義資料ハンズオンのPDFは過去の講義をご覧ください
2021年度
2020年度(PDFあり)
2019年度(PDFあり)
2018年度(PDFあり)
2017年度(PDFあり)
2016年度
【参加者の声】
・国民健康基礎調査といった大規模なデータベースを用いて、実際の解析を経験できたことはいい勉強になりました。今回のメインでは無いかもしれませんが、EXCEL、JMPの操作に関しても理解が深まりました。
・「国民生活基礎調査」の生データを使って実習できたので、解析までにたくさんの処理をしなければならないことが非常によく分かりました。また、データを扱う際に注意すべき点や効率的に分析するための手法を具体的に学ぶことが出来ました。ありがとうございました。
・実際のデータを用いた実習で緊張感を持って取り組めた。楽しかった。自分の研究や統計解析の実習などで回帰分析などを行ったが、基本的なことやちょっとしたコツはあまり教えてくれないのと、疑問に思っていても「この質問はあまりにも馬鹿なのではないか。」という恐怖心から誰にも聞けないでいた。そういった疑問たちが今日の授業ではクリアになった。本当にありがたい授業だった。また、回帰分析やダミー変数など他の先生からの説明とは違った説明が聞けたので理解が深まった。
・公的データがどのような形で提供され、利活用できるのかを実地で体験できて有益でした。また、ダミー変数の取り扱いや解析の方法についても作業しながら説明をいただけ、理解が深まりました。諸外国に遅れを取ってはいるものの、本邦でも二次データの利用推進の議論は日毎に進んでおり、提供データの充実が見込まれると考えられ、このようなデータのリテラシーは臨床研究者において必須スキルとなってくると思います。本実習の学びを活かして、将来的には自身でも公的データを用いた研究を実践してみたいと思っています。
・本日は大変貴重な実習の機会を頂きありがとうございます。
・公的統計についてHP上で公開されている集計のものを活用させていただくことはありましたが、個人単位で解析に使える形のデータを利用させて頂くことが始めてで、非常に興味深く臨みました。
・データの利活用に関して、非常に丁寧な個人情報への配慮があることが印象に残りました。都道府県情報の削除、リサンプリング、裾切り、トップコーディング、リコーディング等、個人が特定されることのないような取組が印象に残りました。それと同時に、PCで見ているのは文字や数字ですが、その先の各個人からいただいたデータであることも改めて意識しました。
・実際に、論文を再現する貴重な経験を経て、解析のためのきめ細かな準備や解析に合わせたデータの操作なども具体的にイメージ出来ました。先生、TAさん、一緒のペアだった方のおかげで、手続きも何をしているのか、何をする必要があるのか、考えながら出来たのもとてもありがたかったです。
・実際の匿名データを使って解析を行うことが初めてで、大変勉強になりました。ありがとうございました。解析をするためには、まずデータを加工してきれいな形に整える作業が必要で、それがとても大変な作業であることを実感しました。ダミー変数のことも今日の説明を聞いて理解できるようになりました。今回は、実習資料を見ながら最後まで終えることができましたが、実際に自分の研究でデータを使うときには、どのような解析を行うのか、そのためにどのようなデータクリーニングが必要かを自分で考えながら行っていく必要があると感じました。
・今回公的データへ初めてアクセスしましたが、想像以上にデータの取り扱いや管理が厳しいことを知り、一国民としては逆に安心もしました。実際のCSVデータをJMPで解析する前に各データの列名を挿入する作業は、意外に時間がかかりました。その後JMPのデータテーブルでデータクリーニングやダミー変数作成など事前準備をして最後に回帰分析をする過程を通して、BMJ論文の結果を少しだけ再現することができ、とても貴重な体験でした。本日の実習を通して一番痛感したことは、データへアクセスすることができても、そのデータを使用する方法を知らなければ、データの利活用は何もできないのだと思い知りました。
・実際に公的統計のデータに触れることができ、実際の統計がどのようなデータをもとに作成されているのかということについて理解が深まった。また実際に行われた研究で行われた解析に近い方法をなぞることができた。このため、二次データを利用する研究ではどのようなことを知ることが可能で、またどのようなことを調べるのは難しいのかということについても、実際のデータに触れることでより実感が湧いた。
・国民生活基礎調査データをまず解析するための作業の難しさを体感しました。多くのデータが含まれており、さまざまな切り口でデータ分析もできることを感じました。そもそもデータ収集するために多大な労力を使っているものであり、これをいかに医療や社会に有効活用できるようにデータを扱うテクニックを身につけられるかが重要だと思いました。
・指示通りに操作することが多く、その背景まで理解できているとは言い難かったかもしれません。改めて勉強の必要性を再認識させられました。
・リアルデータを使う実習は珍しいため大変勉強になりました。本や講義のみではなかなか実践力がつかないため、このような実習形態の授業は学生にとって非常に有益です。国民生活基礎調査の質問内容などを確認できたことで、今後の自身の研究テーマを広げることができそうです。
・データ整理から解析までを実際に手を動かして実施したことで、データベース研究の一連の流れを学ぶことができました。特にダミー変数についての理解度が格段に上がりました。国民生活基礎調査匿名データに加え、他のデータベースでもこのような実習をできると、より嬉しく思います。
・今回の授業を通じて、初めて匿名データを利用しました。大変貴重な経験だと思っております。今まで、理論的な話しか勉強したことがなくて、実際にJMPを用いて操作してみたら、公的データにおける解析前のデータ処理などについて大変勉強になりました。
・国民生活基礎調査匿名データを実際に扱うのも、JMPを使用するのも初めてでしたが、高橋先生の講義資料ハンズオンと丁寧なご説明で、公的データの内容と解析方法について理解を深めることができました。また課題論文の図表を解析する機会をいただけて、公的データから、新たな変数を作成したりして、研究に活かされている実例を学ばせていただくことができました。実習によって、個人情報の取り扱いの大切さを実感するとともに、公的データがとても身近なものになり、大変貴重な機会でした。
・匿名データを利用するのは初めてでしたが、データ使用の手続きの流れや実際にデータを解析する事でデータを活用した研究を身近に感じることが出来ました。データ数が膨大であり、活用の仕方次第で効果的な研究利用が出来ると感じました。実際にJMPでの解析を行う事で、1つの変数に対してもデータ分類の方法が複数あり、分類方法が研究者の仮説を反映するものとなるので、研究計画段階での仮説の明確化が非常に重要であると実感しました。実際に収集されている生のデータを用いて解析実習ができるとても貴重な機会となりました。
・公衆衛生学の専門職学位課程に在籍するならばこうした実際の大きなデータに触れることや分析の仕組みなどを体系的に理解するためのステップは皆経験すべきだと思った。実際に自分で動かしてみることで、普段から論文を正しく理解するために必要な読む力もついてくると感じた。また講義の中で、米国では自由に利活用出来る状態のデータセットが用意されていることも多く、日本で同様の研究をしたいと思ってもスタート地点に既に大きな差があると聞いていたので、国民生活基礎調査を使える状態にするまでの複雑な処理を知れたのも一つ大きな学びだった。学部ではなく大学院の1コマで、機会の提供だけに留まらず手取り足取りサポートがあり、かなりお膳立てして貰っている講義だと感じた。だからこそ(条件があるため難しいとは思いますが)データに触れた後、各グループごとに解析し発表し合う時間もあったら面白いと思った。ただ、振り返りには書ききれない程学びの多い時間だった。来年も再履修したい。
以上