且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

Python检测文本类型

更新时间:2022-10-04 14:30:10

1、根据文件头。

1
2
3
4
5
6
#是否为带BOM头的UTF8文件
def IsUtf8BomFile(pathfile):
    if b'\xef\xbb\xbf' == open(pathfile, mode='rb').read(3)):
        return True
         
    return False

2、用cchardet库。

1
2
3
>>> import cchardet
>>> cchardet.detect(open(pathfile, 'rb').read())
{'encoding''UTF-8''confidence'0.9900000095367432}


相关阅读:

1、u'\ufeff' in Python string (里面有几种文本的头信息)

2、wxMEdit 跨平台的文本/十六进制编辑器 

3、收集各种文件类型的文件头信息 

4、根据文件头数据判断文件类型


*** walker ***

本文转自walker snapshot博客51CTO博客,原文链接http://blog.51cto.com/walkerqt/1757899如需转载请自行联系原作者


RQSLT