UTF-8 编码去除 BOM 头的 python 脚本

前几天我在 Windows 写完一篇 markdown 格式的文章,上传到 github page 后,这个文章的页面把 jekyll 的 YAML 头信息也显示出来了,没有像我之前在 Ubuntu 中写的文章一样正常解析 YAML 头信息,最后谷歌了半天发现原因是在 Windows 用记事本保存 UTF-8 编码的文件时会默认加上 BOM 头字符。而 jekyll 的文档中也明确写明了如果使用 UTF-8 编码,那么在文件中一定不要出现 BOM 头字符。

所以我把如何在 Windows 和 Linux 系统中去除 UTF-8 的 BOM 头的方法做个记录。

UTF-8 与 UTF-8 + BOM 的区别

下面是我从网上复制过来 BOM 的简介:

BOM – Byte Order Mark,中文名译作“字节顺序标记”。在 UCS 编码中有一个叫做 “Zero Width No-Break Space” ,中文译名作“零宽无间断间隔”的字符,它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符,所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前,先传输字符 “Zero Width No-Break Space”。这样如果接收者收到 FEFF,就表明这个字节流是 Big-Endian 的;如果收到 FFFE,就表明这个字节流是 Little- Endian 的。因此字符 “Zero Width No-Break Space” (“零宽无间断间隔”)又被称作 BOM。

UTF-8 不需要 BOM 来表明字节顺序,但可以用 BOM 来表明编码方式。字符 “Zero Width No-Break Space” 的 UTF-8 编码是 EF BB BF。所以如果接收者收到以 EF BB BF (十六进制)开头的字节流,就知道这是 UTF-8编码了。Windows 就是使用 BOM 来标记文本文件的编码方式的。

所以 UTF-8 + BOM 其实就是在文件的开头加上了 0xEF 0xBB 0xBF 这三个字节,而这个三个字节是一串隐藏字符。

在 Linux 中如何检测去除BOM头

在 Linux 中可以用 vim 很方便地检测、去除 BOM 头

检测是否有 BOM 头:

1
:set bomb?

去除BOM头:

1
2
:set encoding=utf-8
:set nobomb

添加 BOM 头也很简单:

1
2
:set encoding=utf-8
:set bomb

利用 Python 脚本在 Window、Linux、Mac os 中去除 BOM 头

我在 Terence 的 BomSweeper 的基础上,用 Python3 完成了一个去除单个文件 BOM 或者批量去除一个文件夹内多个文件 BOM 的脚本。原理就是删除文件开头的 BOM 的 3 个字节。

大家可以到 Github 中查看下载源码,项目地址 – Utf8BomRemover

在 Readme 中我有写明脚本的使用方法,如果大家对这个脚本有什么建议欢迎留言。

END
Johnny Shieh wechat
我的公众号,不只有技术,还有咖啡和彩蛋!