当前位置:编程学习 > JAVA >>

关于java解析pdf的问题探究

最近有个项目要解析pdf,将pdf中的文本提取到txt文件中,PDF格式如下:
 


要解析出来的txt格式如下:
 


 
相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流!

pdf下载地址http://www.iteye.com/topic/1121097 --------------------编程问答-------------------- 补充一下,我现在用的是itext进行pdf文件的解析。
--------------------编程问答-------------------- 大家来讨论下啦
补充:Java ,  Java EE
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,