PDF翻訳でレイアウト崩れを防ぐ方法|ツール5社の保持精度を比較
PDFを翻訳したら、段落がずれる、画像が消える、表が崩れる——PDF翻訳のレイアウト崩れは多くの人が直面する悩みです。
結論から言うと、PDF翻訳でレイアウトを崩さないには「テキスト層とレイアウト層を分離して処理するツール」を選ぶことが重要です。 この記事では、PDF翻訳でレイアウトが崩れる理由を解説し、主要5ツールの保持精度を比較します。
PDF翻訳でレイアウトが崩れる理由
PDFは「表示用」フォーマットである
PDF(Portable Document Format)は、どんな環境でも同じ見た目で表示されるよう設計されたフォーマットです。そのため、テキスト、画像、レイアウト情報が一体化しており、テキストだけを抽出して翻訳すると、元の配置情報が失われます。
文字幅の変化による再配置の難しさ
英語から日本語への翻訳では、文字数と文字幅が大きく変わります。「International Business Conference」は31文字ですが、「国際ビジネス会議」は7文字です。この変化に合わせてテキストボックスのサイズや配置を再計算しないと、レイアウト崩れが発生します。
テキストPDFとスキャンPDFの違い
PDFには大きく分けて2種類あります。
- テキストPDF: テキスト情報が埋め込まれたPDF。WordやPowerPointからPDF変換したもの
- スキャンPDF: 紙文書をスキャナーで取り込んだPDF。テキストは画像として保存されている
スキャンPDFにはテキスト情報がないため、OCR(光学文字認識)でテキストを抽出してから翻訳する必要があります。多くの無料翻訳ツールはスキャンPDFに対応していません。
5ツール比較表
| 項目 | Google翻訳 | DeepL | Adobe Acrobat | じたん翻訳 | Microsoft Translator |
|---|---|---|---|---|---|
| レイアウト保持 | 低 | 中 | 高 | 高 | 低 |
| テキストPDF対応 | 可能 | 可能 | 可能 | 可能 | 可能 |
| スキャンPDF対応 | 不可 | 不可 | OCR内蔵 | OCR対応 | 不可 |
| ファイルサイズ上限 | 10MB | 無料5MB / Pro15MB | Pro版で大きく緩和 | 制限緩和 | 制限あり |
| ページ数上限 | 300ページ | 月3ファイル(無料) | 制限なし | 制限緩和 | 制限あり |
| AI学習データ利用 | 利用される | 無料版は利用される | – | 利用しない | 利用される |
| 料金 | 無料 | 無料 / Pro月額 | Pro年額 | ポイント制 | 無料〜 |
Google翻訳の特徴
手軽に使える反面、PDFのレイアウト保持精度は低めです。特に表や図が含まれるPDFでは、要素の配置が大きく崩れる傾向があります。10MB、300ページの制限も、長文書の翻訳には壁となります。
DeepLの特徴
翻訳品質は非常に高いですが、無料版は5MB・月3ファイルと制限が厳しいです。PDFのレイアウト保持は改善されていますが、複雑なレイアウトではまだ崩れが見られます。また、無料版は翻訳データがAI学習に利用される可能性があるため、規約の確認が必要です。
Adobe Acrobatの特徴
PDFの元祖であるAdobeのツールだけあり、レイアウト保持は高い水準です。ただし、Acrobat Pro(有料)が必要で、PowerPointやExcelファイルは対象外です。PDFに特化したい場合は有力な選択肢です。
じたん翻訳の特徴
PDF翻訳において最大の強みはフォーマット保持に特化している点です。テキストの配置、画像の位置、表の構造を翻訳前の状態から解析し、翻訳後に再構築します。スキャンPDFにもOCRで対応しており、シークレットモードで機密文書の翻訳も安全です。
テキストPDF vs スキャンPDF:翻訳方法の違い
テキストPDFの翻訳フロー
- PDFからテキストとレイアウト情報を抽出
- テキストを翻訳(文字幅差を計算)
- 翻訳後のテキストを元のレイアウトに配置
- PDFとして再生成
テキストPDFは構造情報が残っているため、レイアウト保持の精度が高くなります。
スキャンPDFの翻訳フロー
- OCRで画像からテキストを認識
- 認識したテキストを翻訳
- 翻訳テキストを元の画像に重ねて配置
- PDFとして再生成
スキャンPDFはOCRの精度が翻訳品質に直結します。手書き文字や低解像度のスキャンでは認識精度が下がるため、高品質なスキャンデータの用意が推奨されます。
ビジネス向け推奨ツール選び
| 用途 | 推奨ツール | 理由 |
|---|---|---|
| ちょっとした確認 | Google翻訳 | 無料・手軽 |
| 高品質な翻訳が必要 | DeepL Pro または じたん翻訳 | 翻訳品質重視 |
| レイアウト保持が必須 | じたん翻訳 | フォーマット保持特化 |
| 機密文書の翻訳 | じたん翻訳(シークレットモード) | AI学習非利用 |
| スキャン書類の翻訳 | じたん翻訳 または Adobe Acrobat | OCR対応 |
| PDFのみ・コスト重視 | Adobe Acrobat Pro | PDFに最適化 |
まとめ
PDF翻訳でレイアウト崩れを防ぐには、テキストとレイアウトを分離処理するツールを選ぶことが鍵です。無料ツールは手軽ですが、レイアウト崩れやファイルサイズ制限に直面しやすく、結局手作業で修正する手間がかかります。
ビジネス文書の翻訳では、じたん翻訳のようにフォーマット保持に特化したツールを利用することで、翻訳後の調整作業を大幅に減らせます。新規登録時に100チケットの無料特典が付与されるので、まずは実際のPDFで精度を確認してみてください。
関連記事
FAQ
Q1. スキャンPDFでもレイアウトを保持したまま翻訳できますか?
はい、じたん翻訳はOCR技術を用いてスキャンPDFのテキストを認識し、元のレイアウトを維持したまま翻訳します。ただし、スキャン解像度が低い場合や手書き文字が含まれる場合は、OCR認識精度が下がる可能性があります。
Q2. PDF翻訳後にWordやPowerPointで編集できますか?
じたん翻訳はPDFのレイアウトを保持した翻訳済みPDFを出力します。編集可能な形式が必要な場合は、PowerPointやWord形式でアップロードいただくことで、編集可能な状態で翻訳結果を受け取れます。
Q3. 図やグラフ内のテキストも翻訳されますか?
画像として埋め込まれた図やグラフ内のテキストは、スキャンPDFと同様にOCRで認識して翻訳します。ベクターグラフィックスとして埋め込まれたテキストは直接翻訳が可能です。
Q4. 複数のPDFをまとめて翻訳することはできますか?
じたん翻訳は1ファイルずつ翻訳ジョブを投入します。複数ファイルの翻訳が必要な場合は、順次ジョブを登録していただけます。処理完了後はメールで通知されます。