スキャンPDFをOCRで翻訳する方法|画像PDFの翻訳手順を解説
PDFを翻訳しようとして「テキストが選択できない」「翻訳ツールにアップロードしてもエラーになる」という経験はないでしょうか。その場合、PDFは「スキャンPDF(画像PDF)」である可能性が高いです。
スキャンPDFは、紙の文書をスキャナーやカメラで取り込んで作成されたPDFで、テキストが画像として保存されています。Google翻訳やDeepLの無料版など、一般的な翻訳ツールはテキストPDFにしか対応しないため、OCR(光学式文字認識)を使ってテキストを抽出する必要があります。
この記事では、スキャンPDFの見分け方から、OCRを使った翻訳手順までを解説します。
まず確認:自分のPDFはスキャンPDFか?
翻訳方法を選ぶ前に、自分のPDFがテキストPDFかスキャンPDFかを見分けることが重要です。3つの簡単な確認方法があります。
方法1:テキストのドラッグテスト
PDFを開いて、文字が書かれている部分をマウスでドラッグしてみてください。文字が反転選択できればテキストPDF、選択できない場合はスキャンPDFです。
方法2:検索機能での確認
PDFビューアーで適当な単語を検索(Ctrl+F)してみてください。テキストPDFなら検索結果がハイライトされますが、スキャンPDFでは「見つかりません」となります。
方法3:ファイルサイズとプロパティ
スキャンPDFは画像データを含むため、テキストPDFに比べてファイルサイズが大きくなる傾向があります。PDFのプロパティを開き、「ページサイズ」や「作成アプリケーション」を確認することでも手がかりが得られます。
| 確認方法 | テキストPDF | スキャンPDF |
|---|---|---|
| テキストドラッグ | 選択できる | 選択できない |
| テキスト検索 | ヒットする | ヒットしない |
| ファイルサイズ | 比較的小さい | 比較的大きい |
| 作成方法 | Word等からPDF保存 | スキャナー・カメラで取り込み |
OCR翻訳の仕組み
OCR(Optical Character Recognition)は、画像内の文字をテキストデータに変換する技術です。スキャンPDFの翻訳は、次の4つのステップで行われます。
ステップ1:画像認識
PDF内のページ画像から文字の形状を認識します。OCRエンジンが文字の輪郭を検出し、文字の候補を特定します。
ステップ2:テキスト化
認識した文字形状をテキストデータに変換します。この段階でOCRの精度が翻訳品質に直結します。誤認識があった場合は、翻訳結果にも誤りが反映されます。
ステップ3:翻訳
テキスト化されたデータを翻訳エンジンで日本語に変換します。一般的なテキスト翻訳と同じプロセスです。
ステップ4:出力
翻訳結果をテキスト、Word、またはPDFとして出力します。レイアウトを保持するかどうかはツールの能力に依存します。
「OCRテキスト化」と「翻訳」の2段階があるため、テキストPDFの翻訳より工程が多く、エラーの発生ポイントも増えます。OCRの認識精度が低いと、その時点で翻訳品質も下がるため、OCRの品質が重要です。
OCR対応翻訳ツール比較
| ツール名 | OCR機能 | レイアウト保持 | 日本語OCR | 翻訳品質 | 料金 | 一括処理 |
|---|---|---|---|---|---|---|
| Google翻訳 | なし | 弱い | – | 中程度 | 無料 | – |
| DeepL | Pro版で対応 | 中程度 | 対応 | 高い | Pro版は有料 | 対応 |
| Google ドライブ | あり | 弱い | 対応 | -(テキスト化のみ) | 無料 | 非対応 |
| Adobe Acrobat | あり | 高い | 対応 | -(テキスト化のみ) | 有料 | 対応 |
| じたん翻訳 | あり | 高い | 対応 | 高い | 無料〜有料 | 対応 |
Google翻訳
テキストPDFのみ対応で、スキャンPDFはエラーになります。スキャンPDFを翻訳するには、事前にOCRでテキスト化する必要があります。
DeepL Pro(有料版)
OCR機能を備えており、スキャンPDFを直接アップロードして翻訳できます。翻訳品質は高いですが、無料版ではOCR機能が使えません。
Google ドライブ(手動OCR)
PDFをGoogle ドライブにアップロードし、「Google ドキュメントとして開く」を選択すると、自動でOCRが実行されテキストが抽出されます。抽出されたテキストをGoogle翻訳などの翻訳ツールにかけます。
手順:
- Google ドライブにPDFをアップロード
- ファイルを右クリック→「アプリで開く」→「Google ドキュメント」
- 自動的にOCRが実行されテキストが表示される
- テキストをコピーしてGoogle翻訳などで翻訳
無料ですが、手間がかかりレイアウトはほぼ維持されません。
Adobe Acrobat
PDFの編集機能に優れ、OCRテキスト化の精度も高いです。ただし翻訳機能は備えていないため、テキスト化後に別の翻訳ツールを使う必要があります。
じたん翻訳
PDF、DOCX、PPTX、XLSXに対応し、OCRと翻訳が一つのフローで完結します。複数ツールを組み合わせる手間がありません。スキャンPDFをアップロードするだけで、OCRによるテキスト化から翻訳、レイアウト保持まで自動で処理されます。
OCRの精度を左右する4つの要因
OCRの認識精度は、元のPDFの品質に大きく依存します。以下の要因を理解しておくことで、翻訳結果の精度を予測しやすくなります。
解像度
スキャン時の解像度(DPI)が最も影響します。150DPI未満だと文字がぼやけて認識率が下がります。300DPI以上でスキャンすることをおすすめします。もし手元のPDFが低解像度の場合は、再スキャンが最も確実な対策です。
文字の種類
活字印刷はOCRの認識率が高いですが、手書き文字は認識が困難です。特に日本語の手書き文字は筆跡のばらつきが大きく、OCRエンジンが正しく認識できないことがあります。印刷された文書であれば、英語・日本語ともに高い認識率が期待できます。
レイアウトの複雑さ
シンプルな段落構成の文書はOCRが正確にテキスト化できます。一方、表、段組、図とテキストの混在、カラムレイアウトなどが複雑に入り組んだ文書では、テキストの順序や対応関係が崩れることがあります。
用紙の状態
スキャン元の紙に汚れ、シミ、折り目があると認識精度に影響します。また、傾いてスキャンされた文書も文字の傾きを正しく認識できない場合があります。まっすぐに、きれいな状態でスキャンすることが大切です。
OCR翻訳がうまくいかない時の対策
OCRで文字化けや誤認識が多い場合
解像度が不足している可能性があります。元の文書を再スキャンし、300DPI以上で取り込んでください。また、OCRツールの言語設定が元の文書の言語と一致していることを確認してください。
表や図が正しく認識されない場合
表のセル結合や、図の中に埋め込まれたテキストは、OCRで正確に構造を認識するのが難しいです。表の内容が重要な場合は、手動でテキストを入力し直す方が早いことがあります。
レイアウトが大きく崩れる場合
OCRでテキスト化した時点でレイアウト情報の一部が失われます。レイアウト保持を重視する場合は、構造解析型のツールを選ぶことが重要です。
よくある質問
スキャンPDFかどうかを見分ける方法を教えてください
PDFを開いてテキスト部分をドラッグし、選択できるかで判断できます。選択できない場合はスキャンPDFです。また、テキスト検索(Ctrl+F)で文字が見つからない場合もスキャンPDFの可能性が高いです。
OCRの精度はどの程度ですか?
活字印刷で解像度が十分(300DPI以上)であれば高い精度が期待できます。ただし手書き文字、低解像度のスキャン、複雑なレイアウトでは精度が下がります。OCRの認識精度が翻訳品質に直結するため、元のPDFの品質が重要です。
スキャンPDFを無料で翻訳できますか?
Google ドライブのOCR機能でテキストを抽出し、Google翻訳で翻訳する方法があります。手間はかかりますが無料で可能です。ただし、レイアウトはほぼ維持されない点にご留意ください。
OCR翻訳後のレイアウトは元のPDFと同じになりますか?
OCRでテキスト化した時点でレイアウト情報の一部が失われます。構造解析型のツールを使うことでレイアウト保持の精度が向上しますが、元のPDFの複雑さによっては一部修正が必要になる場合があります。
古い書類のスキャンPDFも翻訳できますか?
紙の劣化や印字の薄い古い書類はOCR認識率が下がる傾向があります。コントラストを調整して再スキャンするか、認識結果を手動で修正する必要が生じることがあります。
まとめ
スキャンPDFの翻訳にはOCRで画像からテキストを抽出する必要があります。テキストが選択できないPDFはスキャンPDFの可能性が高く、通常の翻訳ツールでは対応できないためOCR機能を備えたツールを選んでください。
OCRの精度は元のPDFの品質(解像度、文字の種類、レイアウトの複雑さ)に大きく依存します。高品質なスキャンPDFを用意することが、正確な翻訳結果につながります。
じたん翻訳はOCR翻訳に対応し、PDF、DOCX、PPTX、XLSXでの翻訳を一つのフローで完結できます。PDF翻訳ツール比較も併せて参照してください。