现有一个贼鸡儿大的文件,想要用 pandas 读取,文件是个是 str|str|str|str|str,用 pandas.read_table(path,header=None,sep='|')进行读取,但是文件里有一些脏数据,比如 str 中含有这|字符,所以用读取的时候老是异常,很蛋疼所以写了函数,进行处理,但是感觉好像有点蠢,各位大手子有没有什么别的方法。
这个是处理异常的函数,文件有 4 个多 G,用我这种方式要读到猴年马月了
def read_file(path):
flag = True
ignore_lines = []
while flag:
try:
data = pd.read_table(path, header=None, sep='|', skiprows=ignore_lines)
except Exception as e:
error_line = re.search(r'line (\d+)', e.__str__()).group(1)
ignore_lines.append(int(error_line))
else:
flag = Flase
return data