\U00088301 这样的字符我想把\U000 替换成 \x 该怎么处理？

This topic created in 2022 days ago, the information mentioned may be changed or developed.

网页源码是这个 '''򈅜'''
采集下来变成了 \U0008815c 这样
我想吧\U000 替换成\x 用用 16 进制转 10 进制

但是\U000 没法替换，转了好几个码都处理不了，有什么好的解决办法吗？

u000

替换

进制转

进制

4 replies • 2021-01-16 18:49:30 +08:00

imn1

Jan 16, 2021

？
\x 就是用十六进制啊，\x 跟十进制是怎样的用途呢？

十六进制是两位一个字节，你这个变换结果最多就是 08815c
最搞不懂的是，8815c 超出 unicode 范围了，这个字符不属于任何定义集

至于转换，你使用的语言，把 unicode 转 bytes 就是了，不需要理会\u000，\u000 这不是一个字符串，不能替换

orannge

Jan 16, 2021

Unicode 范围 [U+0000,U+D7FF] 和 [U+E000,U+10FFFF]，错倒没错，不过你这几个是啥字

polarpy

Jan 16, 2021

@orannge 采集下来的就是这样的，我想把他专程'''\x8815c''' 这样就可以专成 10 进制数，在对应字体，我就能拿到我想要的数据了，主要是原网页的数据用字体加密了

polarpy

Jan 16, 2021

@imn1 主要是我要后面的数据，8815c 这个，我可以把用\x8815c 专成 10 进制数，解密字体