这个问题其实非常的复杂,首先我猜测楼主应该碰到的是双栏排版的专业扫描版pdf。如果你把这个文件发给上面的任何一个人,他们都不可能把文本准确的识别出来。
唯一可以试试的思路是这样的:
1,用acrobat pro切割文件并转换为单栏,网络上有pdf2lrf的软件可以实现部分功能。
2,使用CAJViewer 7.0或pdf pro进行单栏识别。
3,进行大量而繁琐的校对工作。
如果你所要识别的是大量图文混排的扫描版书籍,这样就几乎无解了,除非用pdf2pic转换为图片格式,然后一张张处理后手动用OCR软件识别。