做页面转码时出现了这个问题,同网站连续几个页面有的能转码,有的报错不能转。经过细致的检查后发现不能转码的页面有乱码,在页面中显示方框。
拿下面这个例子来说, 0 位 1 位、 3 位 4 位各是一个汉字,问题出在 2 位上, 2 位报错:
aa = b'\xb8\xad\xa4h\xd0\xc2'
bb = aa.decode('gbk')
print(bb)
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 2: illegal multibyte sequence
我现在想既然系统能确定哪个位置有问题,那在出现问题时把这个位置的字符删掉不就行了吗?
不知道这个想法可不可行,不知道怎样把系统找出的这个位置传到变量中,请指教。
aa = b'\xb8\xad\xa4h\xd0\xc2'
try:
bb = aa.decode('gbk')
except UnicodeDecodeError:
拿下面这个例子来说, 0 位 1 位、 3 位 4 位各是一个汉字,问题出在 2 位上, 2 位报错:
aa = b'\xb8\xad\xa4h\xd0\xc2'
bb = aa.decode('gbk')
print(bb)
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 2: illegal multibyte sequence
我现在想既然系统能确定哪个位置有问题,那在出现问题时把这个位置的字符删掉不就行了吗?
不知道这个想法可不可行,不知道怎样把系统找出的这个位置传到变量中,请指教。
aa = b'\xb8\xad\xa4h\xd0\xc2'
try:
bb = aa.decode('gbk')
except UnicodeDecodeError: