C# 拆分PDF文件,提取PDF文本内容


使用 PdfSharp 拆分PDF文件

C# 全选
            PdfDocument newdoc = PdfSharp.Pdf.IO.PdfReader.Open(filename, PdfSharp.Pdf.IO.PdfDocumentOpenMode.Import);

            int index = 0;
            foreach (PdfPage page in newdoc.Pages)
            {
                string filename = string.Format("Single_PDF_{0}.pdf", index++);
                PdfDocument singlepdf = new PdfDocument();
                singlepdf.AddPage(page);
                singlepdf.Save(filename);
            }

 

注意:作者测试 PdfSharp 不支持提取中文内容。

 

使用 iText.Kernel.Pdf 提取PDF文本内容

 

C# 全选
    /// <summary>
    /// 提取文本内容
    /// </summary>
    /// <param name="filename">pdf文件</param>
    /// <param name="pageIndex">页码</param>
    /// <returns></returns>
    public static IEnumerable<string> ExtractText(string filename, int pageIndex)
    {
        using (var r = new PdfReader(filename))
        using (var doc = new PdfDocument(r))
        {
            if (doc.GetNumberOfPages() >= pageIndex)
            {
                string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(pageIndex));
                yield return text;
            }
        }
    }

 

作者亲测:使用iText7支持提取全部文本,包括中文。

 

NuGet包

XML 全选
    <PackageReference Include="itext7" Version="8.0.3" />
    <PackageReference Include="PDFsharp" Version="6.0.0" />

 

版权声明:本文为开发框架文库发布内容,转载请附上原文出处连接
C/S框架网
上一篇:C#.NET获取每年国家法定节假日清单
下一篇:WebApi框架:System.Net.Sockets.SocketException:“以一种访问权限不允许的方式做了一个访问套接字的尝试。”
评论列表

发表评论

评论内容
昵称:
关联文章

C# PDF文件提取PDF文本内容
C# 将PDF转为线性化PDF
C#.NET iTextSharp生成PDF文件源码大全(生成表格、透明水印,页脚页眉页码等)
DevExpress导出不同的格式的文件Excel文件(*.xls)|Word文件(*.doc)|PDF文件(*.pdf)
(C#)RichTextBox控件查找文本演示(功能全)
读取一个文件夹下所有的txt文件,并保存到一个txt文本
C# DevExpress会计凭证表格金额录入组件(支持元角
基于DevExpress C# Winform 财务会计凭证表格金额录入组件(支持元角
C#SQL客户端处理大文本数据通用接口
FastReport报表输出PDF中文乱码输出包含字体文件
C#使用分词算法从文本字符串中抽取关键词模拟百度搜索|CSFramework.COM巨献
C# MD5字符串文本加密
FastReport.NET 导出Excel/PDF文件
关于FastReport.Net 1.x导出PDF/XLS文件出现中文乱码解决方案
图片转为Base64编码的文本
通用文本提示对话框窗体支持保存文本文件|C/S框架网
基于C# Winform财务会计凭证表格金额录入组件(支持亿仟佰拾萬仟佰拾圆角
C#使用StreamWriter在大文本文件末尾添加一行内容
C# 读取资源文件 GetManifestResourceStream
关于C/S快速开发框架采用的文本加密解密策略|C/S框架网

热门标签
.NET5 .NET6 .NET7 APP Auth-软件授权注册系统 Axios B/S B/S开发框架 Bug Bug记录 C#加密解密 C#源码 C/S CHATGPT CMS系统 CodeGenerator CSFramework.DB CSFramework.EF CSFrameworkV1学习版 CSFrameworkV2标准版 CSFrameworkV3高级版 CSFrameworkV4企业版 CSFrameworkV5旗舰版 CSFrameworkV6.0 DAL数据访问层 Database datalock DbFramework Demo教学 Demo下载 DevExpress教程 DOM EF框架 Element-UI EntityFramework ERP ES6 Excel FastReport GIT HR IDatabase IIS JavaScript LINQ MES MiniFramework MIS NavBarControl Node.JS NPM OMS ORM PaaS POS Promise API Redis SAP SEO SQL SQLConnector TMS系统 Token令牌 VS2022 VSCode VUE WCF WebApi WebApi NETCore WebApi框架 WEB开发框架 Windows服务 Winform 开发框架 Winform 开发平台 WinFramework Workflow工作流 Workflow流程引擎 版本区别 报表 踩坑日记 操作手册 代码生成器 迭代开发记录 基础资料窗体 架构设计 角色权限 开发sce 开发技巧 开发教程 开发框架 开发平台 开发指南 客户案例 快速搭站系统 快速开发平台 秘钥 密钥 权限设计 软件报价 软件测试报告 软件简介 软件开发框架 软件开发平台 软件开发文档 软件体系架构 软件下载 软著证书 三层架构 设计模式 生成代码 实用小技巧 收钱音箱 数据锁 数据同步 微信小程序 未解决问题 文档下载 喜鹊ERP 喜鹊软件 系统对接 详细设计说明书 行政区域数据库 需求分析 疑难杂症 蝇量级框架 蝇量框架 用户管理 用户开发手册 用户控件 在线支付 纸箱ERP 智能语音收款机 自定义窗体 自定义组件 自动升级程序