C#获取文本文件的编码格式Encoding,自动区分GB2312和UTF8


  C#获取文本文件的编码格式Encoding,自动区分GB2312和UTF8

C# Code:

/// <summary>
/// C#获取文本文件的编码,自动区分GB2312和UTF8
/// </summary>
public static class FileEncoding
{
  
  
/// <summary>
  
/// C#根据字节数据byte[]前2位判断文本文件的Encoding编码格式
  
/// </summary>
  
/// <param name="bs"></param>
  
/// <returns></returns>
  
public static System.Text.Encoding GetType(byte[] bs)
  {
    Encoding result
= System.Text.Encoding.Default;
    
    
using (System.IO.MemoryStream fs = new MemoryStream(bs))
    {
      
using (System.IO.BinaryReader br = new System.IO.BinaryReader(fs))
      {
        Byte[] buffer
= br.ReadBytes(2);
        
        
if (buffer[0] >= 0xEF)
        {
          
if (buffer[0] == 0xEF && buffer[1] == 0xBB)
          {
            result
= System.Text.Encoding.UTF8;
          }
          
else if (buffer[0] == 0xFE && buffer[1] == 0xFF)
          {
            result
= System.Text.Encoding.BigEndianUnicode;
          }
          
else if (buffer[0] == 0xFF && buffer[1] == 0xFE)
          {
            result
= System.Text.Encoding.Unicode;
          }
          
else
          {
            result
= System.Text.Encoding.Default;
          }
        }
        
else
        {
          result
= System.Text.Encoding.Default;
        }
        br.Close();
        br.Dispose();
        fs.Close();
        fs.Dispose();
      }
    }
    
    
return result;
  }
  
  
  
/// <summary>
  
/// 获取文件编码格式
  
/// </summary>
  
/// <param name="file"></param>
  
/// <returns></returns>
  
public static System.Text.Encoding GetType(string file)
  {
    
using (FileStream fs = new FileStream(file, FileMode.Open, FileAccess.Read))
    {
      
byte[] Unicode = new byte[] { 0xFF, 0xFE, 0x41 };
      
byte[] UnicodeBIG = new byte[] { 0xFE, 0xFF, 0x00 };
      
byte[] UTF8 = new byte[] { 0xEF, 0xBB, 0xBF }; //带BOM
      
Encoding reVal = Encoding.Default;
      
using (BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default))
      {
        
int.TryParse(fs.Length.ToString(), out int i);
        
byte[] ss = r.ReadBytes(i);
        
if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
        {
          reVal
= Encoding.UTF8;
        }
        
else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
        {
          reVal
= Encoding.BigEndianUnicode;
        }
        
else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
        {
          reVal
= Encoding.Unicode;
        }
        r.Close();
      }
      fs.Close();
      fs.Dispose();
      
return reVal;
    }
  }
  
  
/// <summary>
  
/// 判断是否是不带 BOM 的 UTF8 格式
  
/// </summary>
  
/// <param name=“data“></param>
  
/// <returns></returns>
  
private static bool IsUTF8Bytes(byte[] data)
  {
    
int charByteCounter = 1; //计算当前正分析的字符应还有的字节数
    
byte curByte; //当前分析的字节.
    
for (int i = 0; i < data.Length; i++)
    {
      curByte
= data[i];
      
if (charByteCounter == 1)
      {
        
if (curByte >= 0x80)
        {
          
//判断当前
          
while (((curByte <<= 1) & 0x80) != 0)
          {
            charByteCounter++;
          }
          
//标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X
          
if (charByteCounter == 1 || charByteCounter > 6)
          {
            
return false;
          }
        }
      }
      
else
      {
        
//若是UTF-8 此时第一位必须为1
        
if ((curByte & 0xC0) != 0x80)
        {
          
return false;
        }
        charByteCounter
--;
      }
    }
    
if (charByteCounter > 1)
    {
      
throw new Exception("非预期的byte格式");
    }
    
return true;
  }
}

//来源:C/S框架网 | www.csframework.com | QQ:23404761





C/S框架网|原创精神.创造价值.打造精品

扫一扫加微信
C/S框架网作者微信 C/S框架网|原创作品.质量保障.竭诚为您服务

版权声明:本文为开发框架文库发布内容,转载请附上原文出处连接
C/S框架网
上一篇:C#根据字节数据byte[]前2位判断文本文件的Encoding编码格式
下一篇:基于DevExpress C# Winform 财务会计凭证表格金额录入组件(支持元角分)
评论列表

发表评论

评论内容
昵称:
关联文章

C#获取文本文件编码格式Encoding,自动区分GB2312UTF8
C#获取文件编码格式UTF-8/UNICODE/ASCII)
C#根据字节数据byte[]前2位判断文本文件Encoding编码格式
C#窗体乱码将文件格式ANSI改为UTF-8
C#地址分析算法,自动获取地址对应省市区行政区域编码
C#使用StreamWriter在大文本文件末尾添加一行内容
C#根据期间编码PeriodId获取期间日期范围
VS2022打开appsettings.json提示:文件加载,使用Unicode(UTF-8)编码加载文件xxx时,有些字节已用Unicode替换字符替换
C#编码直接调用WCF服务时协议参数设置
C# getset访问器:获取设置字段(属性)
C# 使用List<String>泛型读取保存文本文件
常见媒体格式类型HttpWebRequest.ContentType
通用文本提示对话框窗体支持保存文本文件|C/S框架网
图片转为Base64编码文本
C#.NET扩展动态对象支持动态属性方法以及Json格式与对象互转
C#获取内网外网IP
C# IdHelper 系统编码系统序号帮助类
C# 通过文件扩展名获取图标描述
C#根据第三方提供IP查询服务获取公网外网IP地址
C# DataSetDataTable

热门标签
.NET5 .NET6 .NET7 APP Auth-软件授权注册系统 Axios B/S B/S开发框架 Bug Bug记录 C#加密解密 C#源码 C/S CHATGPT CMS系统 CodeGenerator CSFramework.DB CSFramework.EF CSFrameworkV1学习版 CSFrameworkV2标准版 CSFrameworkV3高级版 CSFrameworkV4企业版 CSFrameworkV5旗舰版 CSFrameworkV6.0 DAL数据访问层 Database datalock DbFramework Demo教学 Demo下载 DevExpress教程 DOM EF框架 Element-UI EntityFramework ERP ES6 Excel FastReport GIT HR IDatabase IIS JavaScript LINQ MES MiniFramework MIS NavBarControl Node.JS NPM OMS ORM PaaS POS Promise API Redis SAP SEO SQL SQLConnector TMS系统 Token令牌 VS2022 VSCode VUE WCF WebApi WebApi NETCore WebApi框架 WEB开发框架 Windows服务 Winform 开发框架 Winform 开发平台 WinFramework Workflow工作流 Workflow流程引擎 版本区别 报表 踩坑日记 操作手册 代码生成器 迭代开发记录 基础资料窗体 架构设计 角色权限 开发sce 开发技巧 开发教程 开发框架 开发平台 开发指南 客户案例 快速搭站系统 快速开发平台 秘钥 密钥 权限设计 软件报价 软件测试报告 软件简介 软件开发框架 软件开发平台 软件开发文档 软件体系架构 软件下载 软著证书 三层架构 设计模式 生成代码 实用小技巧 收钱音箱 数据锁 数据同步 微信小程序 未解决问题 文档下载 喜鹊ERP 喜鹊软件 系统对接 详细设计说明书 行政区域数据库 需求分析 疑难杂症 蝇量级框架 蝇量框架 用户管理 用户开发手册 用户控件 在线支付 纸箱ERP 智能语音收款机 自定义窗体 自定义组件 自动升级程序