AI翻訳の学習データ問題|入力した文書が漏洩する仕組みと対策
2023年、Samsungのエンジニアが社内の機密ソースコードをAIチャットボットに入力したことで情報漏洩が報告されました(Forbes, 2023)。同様のリスクはAI翻訳ツールにも潜んでいます。結論から言えば、学習利用の有無はサービスごと・プランごとに異なり、規約の確認が必要です。
本記事では、AI翻訳の学習データ問題の仕組みと、具体的な対策を解説します。
AI学習に使われる仕組み
AI翻訳ツールが入力データを学習に利用する仕組みについて、技術的な観点から解説します。学習利用の有無はサービスごと・プランごとに異なるため、規約の確認が必要です。
モデルの再学習(ファインチューニング)
AI翻訳サービスの中には、ユーザーの翻訳履歴を収集し、モデルの再学習(ファインチューニング)に利用するものがあります。学習利用の有無はサービスごと・プランごとに異なるため、規約の確認が必要です。再学習に利用される場合、入力されたテキストの情報がモデルのパラメータに組み込まれることになります。
具体的な流れ:
- ユーザーが「当社の2026年第3四半期売上高は150億円でした」を入力
- AIが翻訳結果を生成
- 入力と出力のペアが学習データに追加
- モデルの再学習で、このデータがパラメータに反映
モデル記憶(Memorization)の問題
AIモデルは、学習データを「丸暗記」する性質があることが研究で指摘されています。これは「モデル記憶(memorization)」と呼ばれる現象で、大規模言語モデル(LLM)を対象とした複数の研究で確認されています(Carlini et al., 2023)。
モデル記憶が起きると、他のユーザーが似たような質問や入力をした際に、学習に使われた機密情報がそのまま出力される可能性があります。例えば、「〇〇社の売上高を教えて」という入力に対して、学習データに含まれていた財務数値がそのまま出力されるケースです。
データの第三者提供
利用規約で「サービス改善のためにデータを利用する」とある場合、これは内部的な学習に限らず、提携先へのデータ提供を含む可能性があります。また、サーバー侵害や法的要請(捜査令状など)により、保存されているデータが第三者に開示される経路もあります。
影響を受ける文書の例
AI学習データ問題の影響を特に受けやすい文書の例を挙げます。
法務文書
- 契約書:取引条件、価格、秘密保持条項
- NDA(秘密保持契約):守るべき秘密情報そのものを入力することに
- 訴訟資料:係争中の事実関係、証拠、戦略
財務文書
- 決算書・財務諸表:未公表の業績データ
- 監査報告書:内部統制の指摘事項
- 税務資料:申告内容、税務調査の対応方針
技術文書
- 特許出願書類:出願前の発明内容(新規性喪失のリスク)
- 研究レポート:未発表の研究成果
- システム仕様書:インフラ構成、セキュリティ設定
人事文書
- 雇用契約書:給与条件、競業避止義務
- 人事評価:個人評価、昇格・降格の検討内容
- 懲戒処分通知:処分理由、事実関係
対策3選
AI翻訳の学習データ問題に対する具体的な対策を3つ紹介します。
対策1:学習非利用モードのあるツールを使う
実務上の有力な対策は、AI学習にデータを利用しない方針が明記された翻訳ツールを使うことです。じたん翻訳のシークレットモードは、翻訳データがAIの学習に使われない設定で翻訳処理を行います。
選び方のポイント:
- 利用規約で「学習に利用しない」が明記されている
- シークレットモードなど、ワンクリックで設定できる
- 処理完了後のデータ自動削除がある
対策2:機密部分をマスキングしてから翻訳する
ツールの変更が難しい場合は、翻訳前に機密情報をマスキング(伏せ字化)します。具体的には、社名、人名、金額、固有のプロジェクト名などを「〇〇社」「XXX万円」などに置換してから翻訳し、翻訳後に元に戻します。
ただし、この方法は手間がかかり、マスキング漏れのリスクがあります。定型的な文書以外には不向きです。
対策3:ローカル環境で翻訳する
インターネットに接続しないローカル翻訳環境を構築すれば、データが外部サービスへ送信されるリスクを大きく抑えられます。ただし、翻訳精度や対応言語に制約がある場合があり、導入・保守コストも高くなります。
実用的なバランスを取るなら、対策1の学習非利用モードのあるクラウド翻訳ツールが最もおすすめです。
漏洩リスクを下げる実務フロー
AI翻訳を完全に禁止すると、現場では結局、個人判断で別のツールを使ってしまうことがあります。重要なのは、使ってよい場面と使ってはいけない場面を分けることです。
ステップ1:文書を3段階に分類する
まず、翻訳したい文書を次の3段階に分けます。
| 区分 | 例 | 推奨対応 |
|---|---|---|
| 低リスク | 公開済みの製品説明、Webページ、一般的な案内文 | 通常の翻訳ツールでも可 |
| 中リスク | 社内マニュアル、顧客名を含まない提案書、業務メール | 学習非利用モードを推奨 |
| 高リスク | 契約書、個人情報、未発表資料、技術仕様書 | シークレットモード必須、必要に応じて承認制 |
この分類を先に決めておくと、「急いでいるから無料ツールに貼り付ける」という判断を防ぎやすくなります。
ステップ2:翻訳前に削れる情報を削る
翻訳の目的が内容理解だけであれば、会社名、個人名、金額、契約番号などを削っても支障がない場合があります。特に契約書や提案書では、本文の意味を把握するために不要な固有情報を事前に伏せるだけでもリスクを下げられます。
ステップ3:翻訳後のファイルを放置しない
翻訳後のファイルは、原文と同じ機密度で扱う必要があります。ダウンロードフォルダ、チャット添付、個人クラウドに残った翻訳済みファイルから漏洩するケースも考えられます。翻訳後は必要な保存場所へ移し、中間ファイルは削除する運用にしましょう。
ステップ4:法務・情報システム部門と例外ルールを決める
すべての文書を現場判断にすると、ルールが曖昧になります。契約書、個人情報、顧客データ、未公開技術情報などは、利用できる翻訳ツールや承認フローを明文化しておくべきです。例外ルールがあると、急ぎの案件でも安全な判断がしやすくなります。
まとめ
AI翻訳ツールに入力したテキストは、モデルの再学習に利用される可能性があります。モデル記憶の現象により、機密情報が間接的に漏洩するリスクもあるため、法務・財務・技術・人事の各分野の機密文書には注意が必要です。
対策として現実的なのは、シークレットモードなど、AI学習への非利用方針を明示した翻訳ツールを使うことです。じたん翻訳なら、シークレットモードを有効にすることで、翻訳データがAIの学習に使われない設定で処理できます。
FAQ
Q1. モデル記憶によって、どの程度の情報が漏洩する可能性がありますか?
モデル記憶は、学習データに頻出する特定のフレーズに対して発生しやすいことが分かっています。一度だけ入力した短いテキストがそのまま出力される確率は低いですが、ゼロではありません。機密情報はそもそも入力しないことが最善の対策です。
Q2. 翻訳後にデータを削除してもらえば安全ですか?
手動削除は確実性に欠けます。削除の依頼を忘れたり、バックアップから漏れたりするリスクがあります。自動削除の仕組みがあるツールを選ぶことを推奨します。じたん翻訳は翻訳完了後にファイルを自動削除します。
Q3. 社内規定で「無料翻訳ツールの使用禁止」となっている場合は?
社内規定に従うことが大前提です。ただし、規定の意図は「AI学習へのデータ利用を防ぐ」ことにある場合が多いため、学習非利用を明記したツールであれば、社内で再度検討の余地があるかもしれません。じたん翻訳のシークレットモードは、セキュリティ要件を満たすツールとして提案できます。
関連記事:
