pyhon 有些其它库,如爬虫,NLP 之类的默认处理方式是 UTF-8,(不是全部,流行的而言)
如果文本来源如果比较多花样,*.html,*.ini ,*.log 等等....
编码有 GBK,GB2312,ASCII,Windows-1254 等等, 有东欧的也有西欧,再来个希伯来的脑裂。
是否有适合的(现成的轮子)便捷一梭子转换成 UTF-8,或者直接成 String,而不必麻烦时间在此?
(by the way:什么阿拉伯的编码,转不了 UTF-8 的,,可以考虑废弃字符)
如果文本来源如果比较多花样,*.html,*.ini ,*.log 等等....
编码有 GBK,GB2312,ASCII,Windows-1254 等等, 有东欧的也有西欧,再来个希伯来的脑裂。
是否有适合的(现成的轮子)便捷一梭子转换成 UTF-8,或者直接成 String,而不必麻烦时间在此?
(by the way:什么阿拉伯的编码,转不了 UTF-8 的,,可以考虑废弃字符)