PDF OCR テキスト認識

ブラウザ上でスキャンPDFからOCRでテキストを認識・抽出します。

ファイルをドロップまたはクリックしてアップロード

Max 100 MB

Tesseract.js を利用した光学文字認識でスキャン PDF 文書のテキストを認識します。文書言語を選択後、抽出テキストのエクスポートまたは不可視テキストレイヤー付きの検索可能 PDF の生成が可能です。

最終確認: 2026年6月

使い方

このツールはブラウザ内で動作します。利用中にファイルが当社サーバーへアップロードされることはありません。

どの言語に対応していますか？

英語、中国語（簡体字・繁体字）、日本語、スペイン語、フランス語、ドイツ語、韓国語など 100 以上の言語に対応しています。処理前にドロップダウンから選択してください。

初回の処理が遅いのはなぜですか？

初回使用時に言語認識データ（4〜50MB、言語により異なる）をダウンロードする必要があります。以降はブラウザにキャッシュされ高速に動作します。

OCR の精度を上げるにはどうすればよいですか？

高解像度のスキャン（300 DPI 以上）を使用し、文書が傾いていないことを確認し、正しい言語を選択してください。

「検索可能な PDF」とは何ですか？

検索可能な PDF は、元のスキャン画像の上に不可視のテキストレイヤーを含んでいます。Ctrl+F でテキスト検索ができ、見た目はそのままです。

スキャン文書はアップロードされますか？

いいえ。OCR 処理は WebAssembly を使ってブラウザ内で完全に実行されます。文書が端末から離れることはありません。

PDFメタデータ編集

ブラウザ上でPDFのタイトル、著者、キーワードなどの属性情報を編集できます。

Markdown を PDF に変換（無料）

Markdown を美しいスタイルの PDF に変換。複数のテーマから選択可能。

PDF保護

PDFのパスワード設定・解除