日本語の印刷された文書をスキャンし、pdf として保存し、これを集めてバインドして複数ページの一つのファイルにする。これだけでは文字として読み取れてないので Adobe Acrobat でOCR で文字として認識させた。
Mac で Adobe Acrobat Pro で OCRすると文字になっているのだが、エディタ等にコピペすると、文字化けして使えない。
Windows 11 でAcrobat Pro 9 (これしか持ってない)でOCRで読み取ると問題ない。
MacでOCRするのは Acrobatフォーラム でも問題になって解決されてないようだ。
と思いきや、OCRのとき言語のデフォルトが英語になっているから、これを設定で日本語にすれば問題ないのだった。これまで英語論文しかやってなかったからな。