关于java解析pdf的问题探究
最近有个项目要解析pdf,将pdf中的文本提取到txt文件中,PDF格式如下:要解析出来的txt格式如下:
相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流!
pdf下载地址http://www.iteye.com/topic/1121097 --------------------编程问答-------------------- 补充一下,我现在用的是itext进行pdf文件的解析。
--------------------编程问答-------------------- 大家来讨论下啦
补充:Java , Java EE