base64学习笔记

...

Posted by 呆贝斯 on July 11, 2020

概述

base64是一种用64个字符来表示任意二进制数据的方法,用记事本打开exe、jpg、pdf这些文件时,我们都会看到一大堆代码, 因为二进制文件包含很多无法显示和打印的字符,所以,想要记事本这样的文本处理软件能处理二进制文件, 就需要一个二进制到字符串的转换方法,base64就是一个最常见的二进制编码方法。

编码过程

base64的原理很简单,选出64个字符——小写字母a-z, 大写字母A-Z,数字0-9,符号“+”、“/”(再加上作为垫字的“=”,实际上是65个字符)作为一个基本字符集, 然后,把数据都转换成这个基本字符集中的字符。转换方式可以分为四步:

  1. 将每三个字节作为一组,一共是24个二进制位。
  2. 将这24个二进制位分为四组,每个组有6个二进制位。
  3. 在每组前面加两个00,扩展成32个二进制位,即四个字节。
  4. 根据下表,得到扩展后的每个字节的对应符号,这就是Base64的编码值。
   0 A  17 R   34 i   51 z

  1 B  18 S   35 j   52 0

  2 C  19 T   36 k   53 1

  3 D  20 U   37 l   54 2

  4 E  21 V   38 m   55 3

  5 F  22 W   39 n   56 4

  6 G  23 X   40 o   57 5

  7 H  24 Y   41 p   58 6

  8 I  25 Z   42 q   59 7

  9 J  26 a   43 r   60 8

  10 K  27 b   44 s   61 9

  11 L  28 c   45 t   62 +

  12 M  29 d   46 u   63 /

  13 N  30 e   47 v

  14 O  31 f   48 w   

  15 P  32 g   49 x

  16 Q  33 h   50 y

base64编码就是把3字节的二进制数据编码为4字节的文本上数据,长度增加33%,好处是编码后的文本数据可以在邮件正文、网页等直接显示。

现在出现一个一个问题:如果要编码的数据不是3的倍数,那最后剩下一个或两个字节总么办?

  1. 二个字节的情况:将这二个字节的一共16个二进制位,按照上面的规则,转成三组,最后一组除了前面加两个0以外,后面也要加两个0。 这样得到一个三位的Base64编码,再在末尾补上一个”=”号。比如,”Ma”这个字符串是两个字节, 可以转化成三组00010011、00010110、00010000以后,对应Base64值分别为T、W、E,再补上一个”=”号,因此”Ma”的Base64编码就是TWE=。
  2. 一个字节的情况:将这一个字节的8个二进制位,按照上面的规则转成二组,最后一组除了前面加二个0以外, 后面再加4个0。这样得到一个二位的Base64编码,再在末尾补上两个”=”号。比如,”M”这个字母是一个字节,可以转化为二组00010011、00010000, 对应的Base64值分别为T、Q,再补上二个”=”号,因此”M”的Base64编码就是TQ==。

非标编码

URL安全的Base64编码适用于以URL方式传递Base64编码结果的场景。该编码方式的基本过程是先将内容以Base64格式编码为字符串, 然后检查该结果字符串,将字符串中的加号+换成中划线-,并且将斜杠/换成下划线_。

>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'

base64还可以自己定义64个字符的排列顺序,这样就可以自定义Base64编码,不过,通常情况下完全没有必要。 Base64是一种通过查表的编码方法,不能用于加密,即使使用自定义的编码表也不行。 Base64适用于小段内容的编码,比如数字证书签名、Cookie的内容等。由于=字符也可能出现在Base64编码中,但=用在URL、Cookie里面会造成歧义, 所以,很多Base64编码后会把=去掉。

# 标准Base64:
'abcd' -> 'YWJjZA=='
# 自动去掉=:
'abcd' -> 'YWJjZA'

去掉=后怎么解码呢?因为Base64是把3个字节变为4个字节,所以,Base64编码的长度永远是4的倍数, 因此,需要加上=把Base64字符串的长度变为4的倍数,就可以正常解码了。

总结

base64编码长度必须为4的倍数,不足则需要补上缺失个数的=才能正常解码,编码也可能是以url安全的方式进行的。 如果是这种情况,将能够在数据中看到减号和下划线字符,应该使用base64.b64decode(strg, ‘-_‘)去解码。