国民生活基礎調査匿名データ 解析実習を行いました(2020年度)
国民生活基礎調査匿名データ 解析実習を行いました(2020年度)
京大SPHの講義「健康情報学II」にて、国民生活基礎調査匿名データの解析実習を行いました。匿名データとは、行政機関等が統計法に基づいて実施した統計調査によって集められた調査票情報を、特定の個人又は法人その他の団体の識別ができないように加工したものです。学術研究及び教育の発展に資すると認められる場合は、一般の方も、利用することができます。今回は、教育目的として、厚生労働省に申出を行い、健康情報学IIにて、匿名データを利用した解析実習を行いました。
【講義名】
・健康情報学II(科目責任者 健康情報学・高橋由光)
【日時・場所】
・2020/12/25(金)、2021/1/8(金)、1/22(金) いずれも13:00-16:15
・京大医学部構内G棟3F演習室
【教材】
講義資料ハンズオンのPDFはこちら【クリック】
【概要】
・統計法および国連の公的統計の基本原則を中心に、公的統計データの二次的利用の規制の必要性および推進のバランス、調査対象の秘密保護について講義を行った。
・国民生活基礎調査(平成22年)匿名データB(世帯票・健康票・所得票・貯蓄票)を用いて、調査票、データレイアウト及び符号表の理解、csvファイルの読込、JMPを用いた記述統計・ロジスティック回帰分析等を行った。
・COVID-19感染予防のため、受講者を3グループに分け、同内容を3回実施した(1名につきスタンドアロンPC 1台)。
【参加人数】
・15名(教員、ティーチングアシスタント含む)
【参考情報】
厚生労働省 匿名データの提供について
http://www.mhlw.go.jp/toukei/itaku/tokumei.html
Shibuya, et al. BMJ. 2002 Jan 5;324:16.
https://pubmed.ncbi.nlm.nih.gov/11777798/
【参加者の声】
・授業等で理論的に習っていたことが実践できて体感的に理解できてよかったです。
・JMPで解析演習のために国民生活基礎調査匿名データを使用させていただくことが大変貴重だと思いました。特に元データからのデータセットの部分が勉強になりました。
・実際のCSVデータを加工して、統計ソフト上でどのように解析するのか、少人数で手順を一個一個ふみながらできたのでたいへん勉強になった。こういった研究に利活用ができるデータがあること自体を知らなかったため、貴重なデータの使用方法や申請についても知ることができてよかった。項目がかなり多く、自分の必要なデータが匿名データにどのように含まれているのかをきちんと把握して解析することが重要だと感じた。
・実際のデータを用いて、論文と同じ分析を自分ができると思っていなかったので、大変ワクワクしながら取り組むことができました。分析は難しいもので、自分は研究結果を活用する側だとばかり思っていたので、実際に自分も分析できて、研究が少し身近になったように感じられました。また、データセット作成時に情報の抽出を誤っていたり、JMP上の条件の入力で少しでも間違えると適切な分析ができなかったりと、一つずつミスなく行う重要性を実感することができました。授業については、解析実習の授業をとっていなかったので少し不安でしたが、手順書がわかりやすく、最後まで取り組むことができ、非常に勉強になりました。とても面白い授業でした。
・公的データの二次利用法に以前から興味があったのですが、今回実際の研究方法に即して実践的に解析を行うことで、公的データの活用方法を具体的にイメージすることができました。また、ダミー変数やジニ係数など補足的な情報を逐次教えてくださったことでさらに周辺の理解が深まりました。ありがとうございました。
・医療統計の講義などでJMPの話は時々出てきて知っていましたが、実際に触ったことは無かったので今回の実習はとても有意義なものになりました。資料のパワーポイントも分かりやすく理解しやすかったです。今後医療データベースを扱った研究を進めていくことになるため、今日学んだことをしっかり活かしていきたいです。
・これまで、国の統計データの結果は色々と参考にしていましたが、自分で扱うのは初めてでした。講義時間を最大限作業にあてられるようにと事前にデータの基礎知識の講義ビデオを準備してくださったことに感謝です。(感染防止対策で、1人で作業できたのもラッキーでした)。データの二次利用は、既存のデータからということですが、そもそものそれらの項目のデータ収集の目的(e.g.めまいまがある、etc)は、何が根拠になっているのだろうかと思いました。縦断的に、めまいを訴える国民が増えている(減っている)というデータがどう役に立つのだろうか、と。収集しているデータを、例えば、2型糖尿病の予防という観点からどう使えるのかと考えました。昨今の、診断に至っていない患者の増加が課題である状況から、例えば、「糖尿病で通院していない人」のうち、頻尿や歯肉出血の症状があるとした場合に、その可能性とみなしてみたり…?傷が治りにくい、などの項目があると、より精度があがるような…。莫大な時間とお金と労力をかけて収集されているデータですので、国民の生活に還元できるfindingsを得られるデータであってほしいと思います。大変実践的な講義でした、どうもありがとうございます。
・公的なデータを解析データベースにする具体的な手順を、実践的に学べ、またこれらの貴重なデータを利活用する方法を考えるきっかけも頂け、とても有意義な講義でした。さらに高橋先生が、未経験の私の疑問点にも、絶妙なタイミングでフォローや解説を適宜入れて下さり、さらに理解が深まりました。実際に、手を動かし、体験するからこそ学べる事がたくさんありました。貴重な体験をありがとうございました。
・統計ソフトの使い方について慣れておかないと難しいと思った。
・京大SPHの講義「健康情報学II」にて、国民生活基礎調査匿名データの解析実習を行いました。実際のデータを使い、論文と見比べて解析ソフトを触れたので、とても勉強になりまいた。やはり実際に触ってみると理解が進みます。貴重な実習経験をありがとうございました。また、実習のあとのダミー変数とジニ係数の説明もわかりやすく、腑に落ちました。
・匿名データを扱うのは、初めてで貴重な経験となりました。コロナ渦で学生を少数に分散させながら、オンデマンドの授業と平行して行う配慮をしてくださり、無事実習が経験でき感謝の気持ちでいっぱいです。
・匿名データを使用するときにどのような形式で手渡され、解析するためにどのような前処理をしなければならないか、具体的なイメージが湧いたことが本講義での大きな収穫でした。また解析には絶対にマスターデータを操作しないことなど、実践的な注意点まで教えて頂けたことも勉強になりました。本講義を通じて、データベースの解析のハードルが少し取り払われたように思います。
以上