最新文章 (全部类别)
通用选择记录窗体
CSFramework.WebApiV3.WebApi快速开发指南
C/S快速开发框架旗舰版CSFrameworkV6.0 - VS开发环境配置
PostgreSql数据库常用操作 - 使用Bat批处理脚本还原数据库
C/S架构自动升级程序 - .NET8版本最新优化
CSFramework WebApi开发框架集成PostgreSql数据库及测试报告
WebApi开发框架接口模版代码
CSFramework WebApi框架极速版与商业版功能差异与性能对比
CSFramework.WebApi框架 - 使用并发控制过滤器 RequestConcurrentAttribute
CSFramework.Workflow - 可视化工作流引擎 - 业务系统集成解决方案
CSFramework.Workflow - 可视化工作流引擎 - 条件审批操作手册
VS2022.NET8 + PostgreSql 数据库使用入门指南
CSFrameworkV6快速开发框架 - 使用PostgreSql 数据库测试报告
CSFrameworkV6快速开发框架 - 使用 SqlConnector 连接 PostgreSql 数据库测试报告
CSFrameworkV6快速开发框架 - 使用代码生成器连接 PostgreSql 数据库测试报告
CSFramework.EF.PostgreSql数据库组件 PostgreSql数据库测试报告
CSFramework.EF数据库框架简介(.NET8+EFCore)
PostgreSql数据库常用操作 - 使用Bat批处理脚本备份所有数据库
DevExpress DateEdit组件显示和编辑日期和时间
PostgreSQL 更新数据库所有表的字段类型 timestamp 类型改为 timestamptz
CSFramework.Workflow - 工作流程引擎测试程序
C#获取MAC地址包括物理网卡和虚拟网卡
塑木地板行业ERP-公共字典数据操作手册
主程序添加数据库引用Nuget安装包
金罗门ERP - 用户操作手册 - 库存盘点操作手册
塑木地板行业ERP-预收款核销操作手册
.NET8 .NETCore运行环境下载
金罗门ERP - 用户操作手册 - BOM基础资料
ERP导入导出Excel资料操作手册
EF.Core EF模型定义复合主键
塑木地板行业ERP - 用户操作手册 - 采购入库
FastReport.NET自动文本宽度+自动换行+自动行高
.Net Framework 下载
登录提示不知道这样的主机
FastReport.NET导出Excel参数配置
修复BUG: SqlServer批导BulkInsert
使用VS2022发布.NETCore WebApi 网站
部署ASP.NET Core WebApi应用服务器(IIS .NET7)
C/S快速开发框架旗舰版CSFrameworkV6 - 用户自定义报表(FastReport.NET)
DevExpress GridView 点击单元格自动全选内容
ToolTipController超提示组件显示超提示信息在指定位置
C#统计List<T>字符串属性长度(返回每个属性的最大长度)
详解DevExpress.LookUpEdit控件实现自动搜索定位功能
DevExpress官网下载汉化包|Winform.NET程序汉化操作步骤
CSFramework.Workflow - 鹊桥可视化工作流引擎 - 新建工作流
使用Xlight FTP文件服务器
安装DevExpress V22.1.13
官方VS2022下载,VS2022密钥
运行.NET8 Winform程序弹窗用户账户控制解决方案
CSFramework试用版定制用户软件信息
.net敏捷开发,创造卓越

使用HtmlAgilityPack.HtmlDocument彻底清除HTML标签


使用HtmlAgilityPack.HtmlDocument彻底清除HTML标签

测试案例1

HTML原文地址:https://www.csframework.com/archive/1/arc-1-20211205-4041.htm

去除HTML标签后:

图片

 

测试案例2

原文地址:https://www.cnblogs.com/Yellowshorts/archive/2013/03/09/2951503.html

图片

去除HTML标签后:

图片

 

C#源码

 

C# 全选
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace CSFramework.HtmlSpider
{

    public class SpiderTool
    {
        /// <summary>
        /// 移除HTML
        /// </summary>
        /// <param name="htmlContent"></param>
        /// <returns></returns>
        public static string RemoveHTML(string htmlContent)
        {
            //移除HTML
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(htmlContent);
            var ttt = doc.DocumentNode.InnerText.Trim();//清除HTML标签
            ttt = RemoveEmptyLine(ttt);
            ttt = RemoveHtmlTags(ttt);
            return ttt;

        }

        public static string RemoveHtmlTags(string Htmlstring)
        {

            if (Htmlstring.Length > 0)
            {
                //删除脚本
                Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase);

                //删除HTML
                Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", "", RegexOptions.IgnoreCase);
                Htmlstring = Regex.Replace(Htmlstring, @"&ldquo;", "\"", RegexOptions.IgnoreCase);//保留【 “ 】的标点符合
                Htmlstring = Regex.Replace(Htmlstring, @"&rdquo;", "\"", RegexOptions.IgnoreCase);//保留【 ” 】的标点符合
                Htmlstring.Replace("<", "");
                Htmlstring.Replace(">", "");
                Htmlstring.Replace("\r\n", "");
            }
            return Htmlstring;

        }

        /// <summary>
        /// 去掉空行
        /// </summary>
        /// <param name="content"></param>
        /// <returns></returns>
        public static string RemoveEmptyLine(string content)
        {
            StringBuilder sb = new StringBuilder();

            string[] lines = content.Split(new string[] { "\r\n" }, StringSplitOptions.RemoveEmptyEntries);
            string tmp;
            foreach (string s in lines)
            {
                tmp = s.Trim();
                if (String.IsNullOrEmpty(tmp) || String.IsNullOrWhiteSpace(tmp))
                    continue;
                else
                    sb.AppendLine(tmp);
            }

            return sb.ToString();
        }
    }
}

 

 

版权声明:本文为开发框架文库发布内容,转载请附上原文出处连接
C/S框架网
上一篇:ChartControl图表组件ArgumentScaleType/ValueScaleType轴的刻度类型
下一篇:C# Image图片格式转换(gif/jpg/png/bmp)
评论列表

发表评论

评论内容
昵称:
关联文章

使用HtmlAgilityPack.HtmlDocument彻底清除HTML标签
HtmlAgilityPack编程 - 使用DocumentNode.InnerText去除HTML标签
HtmlAgilityPack编程 - HtmlDocument删除html的样式
this.$refs['form'].clearValidate清除表单验证
HtmlAgilityPack编程 - 替换样式(style)的值
Winform Html Editor 使用kindeditor组件实现winform Html 编辑器
C#使用正则表达式移除所有的Html标记,返回纯文本
清除网上邻居用户凭据
ASP.NET Web Forms - HTML 页面
DevExpress XtraTable组件调整TabPage标签页的顺序
el-tabs / el-tab-pane Tabs标签
修改html模板
静态网页生成器 - HTML Generator
代码生成器 CodeGenerator V6.1 - 提供两种生成报表策略(表格/标签,TableObject/TextObject)
清除SQL数据库日志(ldf文件)的几种方法
标签:C#.Net组件开发 - 设计时持久化对象数组
标签:C#.Net组件开发 - 属性窗体内显示自定义名称
robots.txt 指定 Sitemap.xml的位置和robots Meta标签[转]
标签:C#.Net组件开发 - 自定义属性编辑器持久化对象的属性
标签:C#.Net组件开发 - 自定义设计器持久化对象的属性

热门标签
软件著作权登记证书 .NET .NET Reactor .NET5 .NET6 .NET7 .NET8 .NET9 .NETFramework AI编程 APP AspNetCore AuthV3 Auth-软件授权注册系统 Axios B/S B/S开发框架 B/S框架 BSFramework Bug Bug记录 C#加密解密 C#源码 C/S CHATGPT CMS系统 CodeGenerator CSFramework.DB CSFramework.EF CSFramework.License CSFrameworkV1学习版 CSFrameworkV2标准版 CSFrameworkV3高级版 CSFrameworkV4企业版 CSFrameworkV5旗舰版 CSFrameworkV6.0 CSFrameworkV6.1 CSFrameworkV6旗舰版 DAL数据访问层 DaMeng Database datalock DbFramework DeepSeek Demo教学 Demo实例 Demo下载 DevExpress教程 Docker Desktop DOM ECS服务器 EFCore EF框架 Element-UI EntityFramework ERP ES6 Excel FastReport GIT HR IDatabase IIS JavaScript LINQ MES MiniFramework MIS MSSQL MySql NavBarControl NETCore Node.JS NPM OMS Oracle资料 ORM PaaS POS PostgreSql Promise API PSD QMS RedGet Redis RSA SAP Schema SEO SEO文章 SQL SQLConnector SQLite SqlServer Swagger TMS系统 Token令牌 VS2022 VSCode VS升级 VUE WCF WebApi WebApi NETCore WebApi框架 WEB开发框架 Windows服务 Winform 开发框架 Winform 开发平台 WinFramework Workflow工作流 Workflow流程引擎 XtraReport 安装环境 版本区别 报表 备份还原 踩坑日记 操作手册 达梦数据库 代码生成器 迭代开发记录 功能介绍 官方软件下载 国际化 基础资料窗体 架构设计 角色权限 开发sce 开发工具 开发技巧 开发教程 开发框架 开发平台 开发指南 客户案例 快速搭站系统 快速开发平台 框架升级 毛衫行业ERP 秘钥 密钥 权限设计 软件报价 软件测试报告 软件加壳 软件简介 软件开发框架 软件开发平台 软件开发文档 软件授权 软件授权注册系统 软件体系架构 软件下载 软件著作权登记证书 软著证书 三层架构 设计模式 生成代码 实用小技巧 视频下载 收钱音箱 数据锁 数据同步 塑木地板行业ERP 微信小程序 未解决问题 文档下载 喜鹊ERP 喜鹊软件 系统对接 详细设计说明书 新功能 信创 行政区域数据库 需求分析 疑难杂症 蝇量级框架 蝇量框架 用户管理 用户开发手册 用户控件 在线支付 纸箱ERP 智能语音收款机 自定义窗体 自定义组件 自动升级程序
联系我们
联系电话:13923396219(微信同号)
电子邮箱:23404761@qq.com
站长微信二维码
微信二维码