某一原始数据,在数据获取过程中少进行了一个strip处理,导致数据表现为:
,”
2015-01-01 02:56
“,0
,”2018-
01-01 02:56
“,0
其正常应该为一个时间型数据,如:
2015-01-01 02:56
2018-01-01 02:56
而此数据就无法导入数据库进行进一步的处理,因此需要先将其数据进行修正。首先想的是用sed、vi进行处理,但其都是在行上进行处理,而pandas可以在列上进行处理,使其处理不会影响到其他列,因此就使用pandas进行处理:
import pandas as pd df=pd.read_csv('/path/to/do.csv') df['ts_created']=df['ts_created'].str.replace('\n\s+','') df.to_csv('/path/to/out.csv')
发表回复