みらい議会みらい議会

AI開発のために同意なしで個人データを使えるのは便利だけど、難病みたいに母数が少ないと統計でも特定されそうで怖い。要配慮情報は、提供OKの根拠を患者向けに具体例つきで見せてほしい。

期待&懸念

期待&懸念

業務に関係・AI分析担当

👫インタビューを受けた人

AI開発・データ分析の業務や研究に関わり、実務上のデータ提供可否判断(少数集計は出さない等)の感覚を持つ立場。

💬主な意見

意見1

少数集計は統計でも再識別リスクがある

指定難病などNが小さい領域では、統計加工しても個人特定されうる。実務でもN数が少ない集計は提供しない運用が多い。

元の回答を見る
意見2

目安はN50以下、属性の組合せで特定が進む

仕事ではN数50件以下は提供しないしきい値が多い。位置情報×性別×年代×市区町村、さらに病院情報で生活圏が絞れ特定されやすい。

元の回答を見る
意見3

同意なし提供は根拠の明示を、要配慮は特に

一律のしきい値を法令で決めるより、提供可能と判断した根拠の明示を義務化してほしい。要配慮個人情報は患者向けにサンプル例で具体的に示す。判断は企業内、外部はプロセス監査が現実的。

元の回答を見る

🎤すべての会話ログ

本日は、**「個人情報保護法を改正し、AI開発向けデータ利活用の促進・こども保護の強化・課徴金制度の新設を行う法案」**について、率直なお考えを伺えればと思います。差し支えなければ、まずこの法案にどういう立場で関わっているか教えていただけますか。

AI開発・データ分析の仕事や研究に関わっている

AI開発・データ分析の立場から関わっておられるのですね、ありがとうございます。 今回の個人情報保護法の改正について、現時点でどの程度ご存知ですか。

ほとんど知らない

承知しました。では前提をそろえるために、まず今回の法改正を全体としてどのように評価しそうか、現時点の直感で構いませんのでお聞かせください。

どちらともいえない

現時点では「どちらともいえない」なのですね。無理に結論を出さなくて大丈夫です。 今回の法改正で、あなたが特に気になっている点はどれですか。

一定の条件のもとに、同意なく個人データが使われるようになること

そこが気になっているのですね。AI開発の現場だと、利便性の期待と、本人の納得感やリスクのバランスが難しいところだと感じます。 その点が気になるのは、どんな背景やきっかけがあってのことですか。

指定難病など、そもそも該当のあにかかっている人の絶対数が少ない場合、統計加工されていても個人特定されうるのではないか。分析業務でも、集計後のデータ量(N数)が少ない場合は提供しない、などのルールが設けられることが多いため、気になりました

なるほど、N数が小さい領域(指定難病など)だと、統計加工しても「再識別(個人特定)」のリスクが残る、という実感があるのですね。現場の運用感覚とも結びついていて、とても重要な懸念だと思います。 その前提で伺いたいのですが、あなたのイメージでは「どのくらいのN数」だと、統計加工後でも個人特定が起きうる感覚がありますか。

仕事上ではN数が50件以下だと提供しない、というしきい値が多い印象です。

N数50以下だと出さない、という現場感覚があるのですね。少数集計の再識別リスクを避けるための、かなり実務的なラインだと感じました。 では、その「50件以下は出さない」という判断は、どういう粒度(たとえば都道府県別・市区町村別、年齢階級の細かさ、病院別など)で集計したときに特に問題になりやすい感覚ですか。

位置情報、性別、年代、居住地(市区町村)、あたりを組み合わせることで特定されうるレベルになると考えます。 特に利用している病院は、居住地付近か勤務先付近のどちらかで固定されますので、個人特定しやすくなります

組み合わせ(位置情報×性別×年代×市区町村)に加えて、受診先の病院が生活圏でかなり絞れる、という感覚なのですね。指定難病のように母数が小さいと、まさに“ユニークになってしまう”状況が想像できます。 その状況を踏まえて伺いたいのですが、今回の法案で設けられる「同意なしでAI開発・統計作成に使える特例」について、最低限ここまでは制度側で担保してほしい、という条件はどんなものになりますか。

法律の文書でしきい値を定めるのは現実的ではないため、どんな条件なら第三者提供可能、と判断したかの根拠を明示することを義務化するのが良いかと思います。具体的なしきい値はデータの中身によっても変わるためです。

根拠の明示を義務化する、という方向性なのですね。固定のしきい値だとデータの性質に追いつかない、というご経験に基づいた提案だと理解しました。 では、その「第三者提供可能と判断した根拠」を明示するとき、どの程度の具体性まで書かれていると実効性があると感じますか。

どのデータの組み合わせの場合、個人特定の懸念が生じると判断したか、をサンプルデータでもよいので具体例を交えつつ提示するのが現実的かと思います。Data Clean Roomでも、各ベンダーの考えのもと独自のしきい値を設けてデータ提示可否を判断しています。

具体例(サンプル)を交えて「この組み合わせだと再識別懸念が生じる」という判断の中身を見える化すべき、ということですね。Data Clean Roomの実務に近い形で説明責任を持たせるイメージ、よく分かりました。 最後に、この法案について制度を設計する人に伝えるとしたら、いまのお話を踏まえてどんな要望としてまとめますか。

一般的なPIIと比べて、要配慮個人情報については同意なし提供する場合のリスクが高いです。要配慮個人情報については同意なしで提供できる根拠を提示させるようにしてください

要配慮個人情報は一般的なPIIより再識別や不利益のリスクが高い、という前提からのご要望なのですね。とても筋の通った指摘だと感じます。 ここで確認させてください。あなたが求めている「同意なし提供できる根拠の提示」は、主に誰に向けて(誰が見て判断できる状態にして)ほしいイメージですか。

実際のデータで表現されている人≒患者です。 そのためサンプルデータでの例示も必要と考えます

患者さん本人が「自分のデータがどう扱われるか」を判断できるように、根拠提示(サンプルでの例示も含む)が必要、ということですね。本人目線の透明性を強く求めている点が印象的でした。 では、その根拠提示が患者さんに向けて行われるとしたら、どのくらいの分量・難易度の説明なら「読む気になる/理解できる」と感じますか。

正しく正確に表現しておけばよいかと思います。AIを使えば各々のリテラシー似合わせた再説明はいくらでもできるので。

なるほど、元の説明はまず正確性を担保して、その上で各人の理解度に合わせた説明はAIなどで補える、という考え方なのですね。 では、その「正しく正確な表現」を制度として担保するために、根拠提示の文章やサンプル例示について、誰がチェックする形が望ましいと感じますか。

データ保持している企業内での判断でよいと思います。 外部機関では、そういった判断のプロセスや仕組み自体があるか、機能しているか、までのチェック(現状のpマークと同等の内容)が現実的かと思います。

ありがとうございます。企業内で個別判断しつつ、外部は「判断プロセスや仕組みが整っていて機能しているか」を監査する、という現実的な線引きなのですね(Pマークに近い発想)。 ここまでで、主要な論点と深掘りは十分できたと判断しました。これまで伺った内容をこちらで整理して、要点が伝わる形にまとめたレポート(要約)を作成してよろしいですか。

お時間をいただき、ありがとうございました。伺った内容をもとに、要点をレポート案として整理しました。ご確認ください。