polarpy
V2EX  ›  问与答

\U00088301 这样的字符我想把\U000 替换成 \x 该怎么处理?

  •  
  •   polarpy · Jan 16, 2021 · 2009 views
    This topic created in 1967 days ago, the information mentioned may be changed or developed.
    网页源码是这个 '''򈅜'''
    采集下来变成了 \U0008815c 这样
    我想吧\U000 替换成\x 用用 16 进制转 10 进制

    但是\U000 没法替换,转了好几个码都处理不了,有什么好的解决办法吗?
    4 replies    2021-01-16 18:49:30 +08:00
    imn1
        1
    imn1  
       Jan 16, 2021

    \x 就是用十六进制啊,\x 跟十进制是怎样的用途呢?

    十六进制是两位一个字节,你这个变换结果最多就是 08815c
    最搞不懂的是,8815c 超出 unicode 范围了,这个字符不属于任何定义集

    至于转换,你使用的语言,把 unicode 转 bytes 就是了,不需要理会\u000,\u000 这不是一个字符串,不能替换
    orannge
        2
    orannge  
       Jan 16, 2021
    Unicode 范围 [U+0000,U+D7FF] 和 [U+E000,U+10FFFF],错倒没错,不过你这几个是啥字
    polarpy
        3
    polarpy  
    OP
       Jan 16, 2021
    @orannge 采集下来的就是这样的,我想把他专程'''\x8815c''' 这样就可以专成 10 进制数,在对应字体,我就能拿到我想要的数据了,主要是原网页的数据用字体加密了
    polarpy
        4
    polarpy  
    OP
       Jan 16, 2021
    @imn1 主要是我要后面的数据,8815c 这个,我可以把用\x8815c 专成 10 进制数 ,解密字体
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   905 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:55 · PVG 03:55 · LAX 12:55 · JFK 15:55
    ♥ Do have faith in what you're doing.