当前位置:编程学习 > C#/ASP.NET >>

批量把pdf文件中的文本信息读出

现在有大约500个pdf文件,希望把其中的文本文件读出。
我的思路:
1 直接用程序解析pdf文件,读取文本信息。
2 找到支持命令行的pdf工具,利用批处理等方法批量转换为txt文件或者其他,间接读取。

第一种方法当然最好,但是没有找到相应的类,好像有个java的叫pdfbox,弄出来是乱码。
第二种方法还没有找到支持命令行的转txt文件的工具。 --------------------编程问答-------------------- up --------------------编程问答-------------------- pdfbox支持中文有问题 --------------------编程问答-------------------- 2.好像pdf7以上就自带转换到txt的工具吧 --------------------编程问答-------------------- 关于pdf的java开源项目:
http://www.open-open.com/34.htm

 iText   点击次数:15287
iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。

 JFreeReport   点击次数:9089
JFreeReport的数据继承自Swing组件的TableModel接口。JFreeReport生成的报表可以分页预览、打印或者保存为多种格式的文件包括pdf、Excel、html等。

 PJX   点击次数:7982
PJX支持读取,组合,处理,和生成PDF文档(注意:PJX需要 J2SE 1.4.0 或更高版本)。 

 FOP   点击次数:7582
FOP是由James Tauber发起的一个开源项目,原先的版本是利用xsl-fo将xml文件转换成pdf文件。但最新的版本它可以将xml文件转换成pdf,mif,pcl,txt等多种格式以及直接输出到打印机,并且支持使用SVG描述图形。

 gnujpdf   点击次数:7384
gnujpdf是一个java类包(gnu.jpdf.*),它提供了一个简单的API来创建与打印PDF文件。遵循LGPL开源协议。

 PDF Box   点击次数:9020
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。 
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合。 

 Connla   点击次数:7703
Connla是一个Java包用于创建可导成TXT,CSV,HTML,XHTML,XML,PDF和XLS等格式的数据集。


 PDF Split & Merge   点击次数:6767
PDF Split&Merge是一款实用基于GPL许可协议发布的PDF文件分割与合并工具。您可以指定页码范围将一个PDF文件分割为若干PDF 文件(支持单页和多页混合),或将多个PDF文件按指定顺序合并成一个PDF文件。其转换速度非常快。它采用Java Swing开发,运用到的第三方组件包括:iText,jcmdline和JGoodies界面包。


 PDF Clown for Java   点击次数:6613
PDF Clown for Java是一个基于Java1.5用于读,写和操作PDF文档的Java类包。它提供多个抽象层来满足不同的编程风格:从底层(PDF对象模型)到高级(PDF文档结构和内容流)。

 iText toolbox   点击次数:46
iText toolbox是一个Java Swing应用程序,其起初是iText类库的一部分。iText toolbox既可以作为一个可执行的Jar,也可作为Java Webstart应用程序运行。对于完成各种类型的PDF相关文件操作,iText toolbox是一个非常有用的工具比如:把一个目录下的所有图片转换成一个PDF文档,合并现有PDF文档等。此外开发人员可以把它当成一个学习iText类库各项功能的工具。

--------------------编程问答-------------------- 和我联系,我有这样的东西easypdf@gmail.com --------------------编程问答-------------------- .net的话,可以使用itextsharp-4.0.3-dll.zip
要的话 email我:kimmking at 163.com
--------------------编程问答-------------------- PDFsharp    更新时间(2006-6-20)
    PDFsharp是一款可以让.NET框架支持的任何语言很容易的创建PDF文件的类库。
ASP.NET FO PDF    更新时间(2006-6-20)
    FO PDF 是一款C#编写类似于ASP.NET服务器控件的控件。它接受DataTable 和一些其它参数来创建XSL FO,并使用NFOP (Apache FOP Port in J#) PDF Formatter来绘制一个类似PDF Report 的DataGrid 。今后将会增加更多的标签来可以生成XSL FO 。 
Report.NET    更新时间(2006-6-20)
    Report.NET 开源类库包含了生成精确PDF文档的类。它是.NET平台下的C#编写的,可以帮助你创建简单的灵活的PDF文件。你可以从任何ADO.NET的DataSet取得数据来创建PDF文档。ASP.NET可以用Report.NET来创建动态的PDF响应页面。
SharpPDF    更新时间(2006-6-20)
     SharpPDF是可以用来简单的创建PDF文件的C#类库。它创建的文件百分白兼容PDF格式。
iTextSharp    更新时间(2006-6-19)
   iTextSharp是一款开源的PDF操作类库,使用它可以快速的创建PDF文件。http://hardrock.cnblogs.com/  是一个关于 iTextSharp的中文Blog。 --------------------编程问答-------------------- http://www.cs-open.com/sort/16.html --------------------编程问答-------------------- 没有找到用iTextSharp读取文本的方法 --------------------编程问答-------------------- zhangjidong(简单生活) ( ) 信誉:100  2007-6-22 1:06:22  得分: 0  
 
没有找到用iTextSharp读取文本的方法
----------------------------------

不大会吧,应该有pdfReader之类的类
  
 
--------------------编程问答-------------------- 不过iTextSharp好像不能处理不是自己生成的pdf文件,似乎能识别的格式太少? --------------------编程问答-------------------- dotnet环境下从PDF文档中抽取Text文本的一些方法汇总,
http://www.cnblogs.com/hardrock/archive/2006/04/05/367543.html


http://blog.rubypdf.com/2006/11/14/extract-text-from-pdf-under-dotnet/

http://rubypdf.com/2006/11/14/pdftohtml-convert-pdf-to-html-and-xmleven-excel

这个就是利用pdftohtml来实现的http://www.cnblogs.com/hardrock/archive/2006/04/30/389291.html --------------------编程问答-------------------- 最近使用了xpdf,感觉很不错 --------------------编程问答-------------------- 找了个工具PDF2TXT --------------------编程问答-------------------- PDF2TXT
--------------------编程问答-------------------- up --------------------编程问答-------------------- Mark --------------------编程问答-------------------- 学习 --------------------编程问答-------------------- 你可用autoit写脚本,代替你手工操作。
我要的比你还难,要找到对应的表格,将表格读到数据库中。 --------------------编程问答-------------------- 不错。 --------------------编程问答-------------------- mark !顶一下 --------------------编程问答-------------------- mark~ --------------------编程问答--------------------
引用 19 楼 net_flyfox 的回复:
你可用autoit写脚本,代替你手工操作。
我要的比你还难,要找到对应的表格,将表格读到数据库中。

大哥 你是怎么写的啊  我现在也在做这个 读取pdf里面的表格数据 

如果不是机密的话 麻烦发一个列子给我 memaxiaofeng@163.com
--------------------编程问答--------------------
引用 8 楼  的回复:
http://www.cs-open.com/sort/16.html


秦风意动(qsoft开源工作室
。。。


问一下,开源工作室怎么盈利啊?
补充:.NET技术 ,  C#
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,