巧用pandas进行数据处理

某一原始数据,在数据获取过程中少进行了一个strip处理,导致数据表现为:

,”
2015-01-01 02:56
“,0
,”2018-
01-01 02:56
“,0

其正常应该为一个时间型数据,如:

2015-01-01 02:56
2018-01-01 02:56

而此数据就无法导入数据库进行进一步的处理,因此需要先将其数据进行修正。首先想的是用sed、vi进行处理,但其都是在行上进行处理,而pandas可以在列上进行处理,使其处理不会影响到其他列,因此就使用pandas进行处理:

import pandas as pd
df=pd.read_csv('/path/to/do.csv')
df['ts_created']=df['ts_created'].str.replace('\n\s+','')
df.to_csv('/path/to/out.csv')

已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注