「スキャンしたPDFを翻訳したいのに、文字化けしてしまう……」そんな経験はありませんか?紙の資料をスキャナーで取り込んだPDFは、実は普通のPDFとは仕組みが違うのです。この記事では、スキャンしたPDF(画像PDF)を翻訳する方法を、OCRの仕組みから具体的な手順までわかりやすく解説します。
スキャンしたPDFが翻訳できない理由
まず、なぜスキャンしたPDFがそのままでは翻訳できないのかを理解しておきましょう。
テキストPDFと画像PDFの違い
PDFには大きく分けて2種類があります。
- テキストPDF:WordやPowerPointからPDF変換したもの。文字情報が含まれているため、翻訳ツールで処理可能
- 画像PDF:スキャナーやカメラで取り込んだもの。文字が「画像」として保存されているため、翻訳ツールでは文字として認識されない
スキャンしたPDFは後者の「画像PDF」にあたります。つまり、人間の目には文字に見えても、コンピューターにとっては単なる画像データなのです。
OCRとは?
画像PDFを翻訳可能にする鍵となるのが「OCR(光学文字認識)」という技術です。
OCRの仕組み
OCRは、画像の中から文字の形を認識し、それをテキストデータに変換する技術です。例えば、「A」という文字の形を画像から見つけ出し、コンピューターが理解できる文字コードに変換します。
最近のOCRはAI技術の進歩により、手書き文字や傾いた文字、低画質の画像でもかなり高精度に認識できるようになりました。
OCRの精度を左右する要因
OCRの認識精度は以下の要因に影響されます。
- 元の画質(解像度が高いほど良い)
- 文字の鮮明さ(薄い、にじんでいると精度が下がる)
- レイアウトの複雑さ(表や図が多いと難易度が上がる)
- フォントの種類(装飾的なフォントは認識しにくい)
スキャンPDFを翻訳する3つのステップ
スキャンしたPDFを翻訳するには、以下の3ステップが必要です。
ステップ1:OCRでテキスト化
まず、画像PDFをOCRにかけてテキストデータに変換します。これには以下の方法があります。
- Adobe Acrobat:PDF編集の定番ソフト。高精度なOCR機能を搭載
- 無料オンラインOCR:NewOCR、i2OCRなど。手軽だがセキュリティに注意
- Google ドライブ:PDFをアップロードしてGoogleドキュメントとして開くと自動でOCR処理
ステップ2:テキストの確認・修正
OCRの結果は100%正確ではありません。特に以下の点に注意して確認・修正しましょう。
- 数字や記号の誤認識(0とO、1とlなど)
- 固有名詞の誤変換
- 段落の区切り方
ステップ3:翻訳ツールで翻訳
テキスト化が完了したら、通常の翻訳ツールで翻訳できます。DeepLやGoogle翻訳など、お好みのツールを使ってください。
OCR付き翻訳ツール(一括処理)
OCRと翻訳を一度にやってくれるツールもあります。手間を減らしたい方におすすめです。
Adobe Acrobat Pro
OCR機能と翻訳機能の両方を備えています。スキャンPDFを読み込んで、OCR+翻訳を連続して処理可能です。
ABBYY FineReader PDF
OCRに特化したプロ向けソフト。高い認識精度と多言語対応が特徴です。
Google ドライブ + Google 翻訳
無料で使える組み合わせ。GoogleドライブでOCRし、Googleドキュメントから翻訳機能を使います。
レイアウトを維持したい場合
ここまでの方法では、翻訳結果はプレーンテキストになります。「元のレイアウトを維持したい」場合は、別のアプローチが必要です。
方法1:OCRでWordに変換してから翻訳
多くのOCRソフトは、PDFをWord形式(.docx)で出力できます。Wordファイルなら、レイアウトを維持したまま翻訳ツールで処理しやすくなります。
方法2:PDF編集ソフトで直接翻訳
Adobe Acrobat Proなどの高度なPDF編集ソフトでは、OCR後のPDFに対して直接翻訳を適用できる機能があります。
じたん翻訳でのアプローチ
「じたん翻訳」は、PowerPoint(.pptx)・PDF(.pdf)・Excel(.xlsx)に対応しています。スキャンPDF(画像PDF)の場合は、OCRで文字情報を抽出してから処理すると精度と安定性が上がります。
スキャンPDFは、OCR後にPDFのまま整えてから翻訳する運用が実務では扱いやすいです。まず少量で品質確認し、問題がなければ本番文書へ展開するのが安全です。
まとめ
スキャンしたPDF(画像PDF)を翻訳する方法をまとめます。
- まずはOCRが必須:画像をテキストデータに変換する
- 手軽にやるなら:GoogleドライブのOCR機能を活用
- レイアウト重視なら:OCRでWordに変換後、レイアウト維持翻訳ツールへ
スキャンPDFの翻訳は一見難しそうですが、OCRの仕組みを理解すれば意外とシンプルです。ぜひ試してみてください。
じたん翻訳でそのまま運用するなら
じたん翻訳では、PDF / Word / Excel / PowerPointを対象に、文脈理解 → 一次翻訳 → ブラッシュアップの3段階翻訳で処理します。単に文章を置き換えるだけでなく、文書全体の流れや用語の一貫性を見ながら訳す前提のため、業務資料との相性が良い構成です。
とくにドキュメント翻訳では、レイアウト保持と再編集しやすさが重要です。テキストPDFと画像PDFで処理系が分かれる点、WordやExcelも扱える点を踏まえて、元データに近い形で作業を戻したいケースに向いています。
関連記事
まずは無料で試したい場合
じたん翻訳は、新規登録で500ポイントが付与されます。小さめのファイルや検証用データで試しながら、対応形式や翻訳品質、運用フローを確認できます。