找回密码
 立即注册

QQ登录

只需一步,快速开始

804241020

银牌会员

2

主题

15

帖子

3240

积分

银牌会员

积分
3240
最新发帖
804241020
银牌会员   /  发表于:2015-11-25 17:29  /   查看:10721  /  回复:16
在LeadTools.pdf.dll提供了PDFFile和PDFDocument读取PDF文件,这里想逐行读取PDF文件内容,但在PDFFile和PDFDocument类中未找到相关的方法,有没有其他方法呢

16 个回复

倒序浏览
iceman
社区贡献组   /  发表于:2015-11-26 15:10:00
沙发
回复 1楼804241020的帖子

你好,PDF文件是以图片形式保存的,无法进行逐行读取。
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-11-26 15:31:00
板凳
PDF并不是以图片形式保存的,曾经实现过用LeadTool按行读取PDF功能,现在遗忘了,能否帮我再确认下
回复 使用道具 举报
AvoCaDolol活字格认证 Wyn认证
社区贡献组   /  发表于:2015-11-26 16:17:00
地板
回复 3楼804241020的帖子

您好,
您的需求是不是获取PDF某一页中某一行的字符或者图片?
如果是的话,可以使用PDFDocument.ParsePages方法来获取,这个方法的签名如下:
public void ParsePages(
   PDFParsePagesOptions options,
   int firstPageNumber,
   int lastPageNumber
)
其中第一个参数PDFParsePagesOptions 有很多,您可以设置您需要的对象来进行获取,例如我想获取第一页的文本:
PDFParsePagesOptions options = PDFParsePagesOptions.RTLOriginal;
document.ParsePages(options, 1, 1);
RTLOriginal的意思是从左至右的字符,这样就可以获取第一页的所有字符了。
如果想要获取第一页的所有对象,例如图片、超级链接、文字、字体等扥,可以使用PDFParsePagesOptions.All;
具体这个方法的使用方法和介绍请参见这里:https://www.leadtools.com/help/l ... ent~parsepages.html
以上,谢谢。
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-11-27 09:07:00
5#
回复 4楼AvoCaDolol的帖子

ParsePages也只能获取整页的内容,我这边的PDF只有一页,我想要获取的是PDF中该页中第一行的内容,
另外我这边的PDF采用LeadToolV19中的PDFDocumentDEMO和PDFFileDEMO打开都提示出错,PDF Error-File is Corrupted,麻烦帮我看一下
回复 使用道具 举报
iceman
社区贡献组   /  发表于:2015-11-27 17:51:00
6#
回复 5楼804241020的帖子

逐行读取问题需要和厂商沟通,看能否实现。

PDF文件通过 C:\LEADTOOLS 19\Shortcuts\Document Viewer\.NET Class Libraries\Document Viewer 和 C:\LEADTOOLS 19\Shortcuts\PDF\.NET Class Libraries\Document Viewer Demo 可以正常打开。

请问您使用的是最新版吗?我们在 11.23 号之后更新了一版leadtools。你可以下载测试下。
http://leadtools.gcpowertools.com.cn/downloads/download/?pid=701
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-11-30 09:10:00
7#
好的,谢谢,11月23号那个版本还没下载过,那就不是最新版本
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-11-30 14:41:00
8#
已下载了最新版本的LeadTools进行测试可以打开该PDF了,但又出现了新的问题,采用Document Viewer Demo打开PDF后,在采用菜单File-ExportText导出PDF的内容不正确,存在重复文字,详见图片,麻烦帮我再看下,谢谢。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 使用道具 举报
AvoCaDolol活字格认证 Wyn认证
社区贡献组   /  发表于:2015-11-30 16:10:00
9#
回复 8楼804241020的帖子

您好,您的问题我已经再现,但是我通过Adobe Acrobat Pro打开您的原始PDF发现您的这个门诊号和年龄本身就是重复的。
门门门门诊诊诊诊号:P900105364-0
44445555岁 申请科室:
如下图:


我使用的是Adobe专门编辑PDF的工具打开的,看到的是PDF的源文件内容,发现里面内容是重复的。
我将您的PDF在Acrobat中做了修改,现在里面的内容正确了,您可以使用我提供的这个PDF试试。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 09:11:00
10#
回复 9楼AvoCaDolol的帖子

那我们看到的并不是重复的内容,LeadTool有没有什么方法不提取这种重复的内容
回复 使用道具 举报
12下一页
您需要登录后才可以回帖 登录 | 立即注册
返回顶部