base64学习笔记

概述

base64是一种用64个字符来表示任意二进制数据的方法，用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆代码，
因为二进制文件包含很多无法显示和打印的字符，所以，想要记事本这样的文本处理软件能处理二进制文件，
就需要一个二进制到字符串的转换方法，base64就是一个最常见的二进制编码方法。

编码过程

base64的原理很简单，选出64个字符——小写字母a-z，
大写字母A-Z，数字0-9，符号“+”、“/”（再加上作为垫字的“=”，实际上是65个字符）作为一个基本字符集，
然后，把数据都转换成这个基本字符集中的字符。转换方式可以分为四步：

将每三个字节作为一组，一共是24个二进制位。
将这24个二进制位分为四组，每个组有6个二进制位。
在每组前面加两个00，扩展成32个二进制位，即四个字节。
根据下表，得到扩展后的每个字节的对应符号，这就是Base64的编码值。

0　A　　17　R　　　34　i　　　51　z

　　1　B　　18　S　　　35　j　　　52　0

　　2　C　　19　T　　　36　k　　　53　1

　　3　D　　20　U　　　37　l　　　54　2

　　4　E　　21　V　　　38　m　　　55　3

　　5　F　　22　W　　　39　n　　　56　4

　　6　G　　23　X　　　40　o　　　57　5

　　7　H　　24　Y　　　41　p　　　58　6

　　8　I　　25　Z　　　42　q　　　59　7

　　9　J　　26　a　　　43　r　　　60　8

　　10 K　　27　b　　　44　s　　　61　9

　　11　L　　28　c　　 45　t　　　62　+

　　12　M　　29　d　　 46　u　　　63　/

　　13　N　　30　e　　 47　v

　　14　O　　31　f　　 48　w　　　

　　15　P　　32　g　　 49　x

　　16　Q　　33　h　　 50　y

base64编码就是把3字节的二进制数据编码为4字节的文本上数据，长度增加33%，好处是编码后的文本数据可以在邮件正文、网页等直接显示。

现在出现一个一个问题：如果要编码的数据不是3的倍数，那最后剩下一个或两个字节总么办？

二个字节的情况：将这二个字节的一共16个二进制位，按照上面的规则，转成三组，最后一组除了前面加两个0以外，后面也要加两个0。
这样得到一个三位的Base64编码，再在末尾补上一个”=”号。比如，”Ma”这个字符串是两个字节，
可以转化成三组00010011、00010110、00010000以后，对应Base64值分别为T、W、E，再补上一个”=”号，因此”Ma”的Base64编码就是TWE=。
一个字节的情况：将这一个字节的8个二进制位，按照上面的规则转成二组，最后一组除了前面加二个0以外，
后面再加4个0。这样得到一个二位的Base64编码，再在末尾补上两个”=”号。比如，”M”这个字母是一个字节，可以转化为二组00010011、00010000，
对应的Base64值分别为T、Q，再补上二个”=”号，因此”M”的Base64编码就是TQ==。

非标编码

URL安全的Base64编码适用于以URL方式传递Base64编码结果的场景。该编码方式的基本过程是先将内容以Base64格式编码为字符串，
然后检查该结果字符串，将字符串中的加号+换成中划线-，并且将斜杠/换成下划线_。

>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'

base64还可以自己定义64个字符的排列顺序，这样就可以自定义Base64编码，不过，通常情况下完全没有必要。
Base64是一种通过查表的编码方法，不能用于加密，即使使用自定义的编码表也不行。
Base64适用于小段内容的编码，比如数字证书签名、Cookie的内容等。由于=字符也可能出现在Base64编码中，但=用在URL、Cookie里面会造成歧义，
所以，很多Base64编码后会把=去掉。

# 标准Base64:
'abcd' -> 'YWJjZA=='
# 自动去掉=:
'abcd' -> 'YWJjZA'

去掉=后怎么解码呢？因为Base64是把3个字节变为4个字节，所以，Base64编码的长度永远是4的倍数，
因此，需要加上=把Base64字符串的长度变为4的倍数，就可以正常解码了。

总结

base64编码长度必须为4的倍数，不足则需要补上缺失个数的=才能正常解码，编码也可能是以url安全的方式进行的。
如果是这种情况，将能够在数据中看到减号和下划线字符，应该使用base64.b64decode(strg, ‘-_’)去解码。