PDF OCR テキスト認識
ブラウザ上でスキャンPDFからOCRでテキストを認識・抽出します。
ファイルをドロップまたはクリックしてアップロード
Max 100 MB
Tesseract.js を利用した光学文字認識でスキャン PDF 文書のテキストを認識します。文書言語を選択後、抽出テキストのエクスポートまたは不可視テキストレイヤー付きの検索可能 PDF の生成が可能です。
最終確認: 2026年6月
使い方
- 1スキャンした PDF 文書をアップロードします。
- 2ドロップダウンから文書の言語を選択します。
- 3出力形式を選択します:プレーンテキストまたは検索可能な PDF。
- 4処理をクリックして OCR を開始します — 進捗はページごとに表示されます。
よくある用途
- スキャンした契約書を検索可能にして特定の条項を探す。
- 紙の資料をデジタル化してインデックスと検索に対応させる。
- テキストレイヤーのない画像ベース PDF からテキストを抽出する。
技術メモ
- ブラウザ内で完全に動作する Tesseract.js WASM エンジンを使用します。
- 言語データは初回使用時にダウンロードされ(約 4〜50MB、言語により異なる)、ブラウザにキャッシュされます。
- ページは認識精度向上のため 2 倍スケールで描画されます。
プライバシーを前提に設計
このツールはブラウザ内で動作します。利用中にファイルが当社サーバーへアップロードされることはありません。
制限事項
- 手書きテキストの認識精度は印刷テキストに比べて大幅に低くなります。
- 段組みや表を含む複雑なレイアウトではテキスト順序が乱れる場合があります。
- 初回の言語パックダウンロードにはインターネット接続が必要です。
よくある質問
どの言語に対応していますか?
英語、中国語(簡体字・繁体字)、日本語、スペイン語、フランス語、ドイツ語、韓国語など 100 以上の言語に対応しています。処理前にドロップダウンから選択してください。
初回の処理が遅いのはなぜですか?
初回使用時に言語認識データ(4〜50MB、言語により異なる)をダウンロードする必要があります。以降はブラウザにキャッシュされ高速に動作します。
OCR の精度を上げるにはどうすればよいですか?
高解像度のスキャン(300 DPI 以上)を使用し、文書が傾いていないことを確認し、正しい言語を選択してください。
「検索可能な PDF」とは何ですか?
検索可能な PDF は、元のスキャン画像の上に不可視のテキストレイヤーを含んでいます。Ctrl+F でテキスト検索ができ、見た目はそのままです。
スキャン文書はアップロードされますか?
いいえ。OCR 処理は WebAssembly を使ってブラウザ内で完全に実行されます。文書が端末から離れることはありません。