C#使用正则表达式移除所有的Html标记,返回纯文本

  C#使用正则表达式移除所有的Html标记,返回纯文本


C# Code:

/// <summary>
/// C#使用正则表达式移除所有的Html标记,返回纯文本
/// </summary>
/// <param name="HtmlString"></param>
/// <returns>返回纯文本</returns>
private static string RemoveHTML(string HtmlString)
{
  
//删除脚本
  
HtmlString =
  Regex.Replace(HtmlString,
@"<script[^>]*?>.*?</script>",
  
"", RegexOptions.IgnoreCase);
  
//删除HTML
  
HtmlString = Regex.Replace(HtmlString, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"-->", "", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"<!--.*", "", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);
  HtmlString
= Regex.Replace(HtmlString, @"&#(\d+);", "", RegexOptions.IgnoreCase);
  HtmlString.Replace(
"<", "");
  HtmlString.Replace(
">", "");
  HtmlString.Replace(
"\r\n", "");
  HtmlString
= HttpContext.Current.Server.HtmlEncode(HtmlString).Trim();
  
  
return HtmlString;
}

//来源:C/S框架网(www.csframework.com) QQ:23404761



版权声明:本文为CSFramework文库发布内容,转载请附上原文出处连接
C/S框架网
发表评论

评论内容
昵称:
关联文章

C#使用表达式所有Html标记,返回文本
C#表达式整理备忘
C#使用表达式判断手机号码
C#表达式替换SQL单引号中间空格
C#使用表达式替换或去掉半角标点符号
C#表达式查找或替换指定字符串(标识)范围内容
C#.NET 身份证号码格式表达式验证
C#.NET 手机号码表达式验证
C#.NET IP地址表达式验证
表格内未使用In-Place Editor Repository
C# CodeHighlighter生成高亮着色HTML源码格式化
C#表达式判断url是否网络路径(http/ftp/https三种协议)
C# 从html中通过找到IP地址信息(只支持ipv4地址)
C#删除特殊符号(包含空格)
C#代码Excel读取器(不需要Office Excel Com组件)
尝试释放使用RCW,活动线程或其他线程上使用该RCW
读取一个文件夹下所有txt文件,并保存到一个txt文本
C#使用分词算法从文本字符串中抽取关键词模拟百度搜索|CSFramework.COM巨献
C# WebAPI控制器邮箱验证接口返回自动重定向HTML页面(原创)
WCF:方法SendMessage在此代理中不受支持,如果未使用OperationContractAttribute标记