人家都说人生苦短, 要学Python。我也是看中计算机快速处理数据的优势,非常想学习这门语言,这真要开始了,确实觉得万事开头难,就此记录下这其中点点滴滴。
系统学习有些大海捞针,还是根据自己的实际需要,有针对性地学些力所能及的操作开始。我的目标是设计一个快速清洗订单报告的python程序,可以按照不同的标准分流数据,查看到底是哪类订单出现了收货不及时的问题,为解决这个问题找到方向.
软件的准备:之前走过一些弯路, 请大家按照下面方法按照Anacoda来获取python:https://zhuanlan.zhihu/p/25198543 , 当你完成安装, 打开Jupyter Notebook, 就可以开始编程了:
第一, 需要把从订单系统中导出的CSV数据报表,导入python。
导入数据的基本方法, 请看这个视频:https://www.youtube/watch?v=5_QXMwezPJE&list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y&index=2www.youtube
很简单的一步,但是却很挠头,因为公司的电脑是全英文的,自己的电脑是中文系统的,excel版本还不一样, 同样的命令它就有时候可以,有时候不行!!
最终找到了原因:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x97 in position 27: invalid start byte
关键是要把CSV文件变成utf-8编码的文件。
1.如果你的excel 另存为可以出现这个格式, 存成这个utf8格式就可以了。
2. 如果你的excel 另存为没有这个格式,按照以下方法:首先将Excel文件保存为CSV格式
将CSV格式在记事本中打开
选择另存为,同时将“编码(E)"选择为 UTF-8
点保存(S),就达到目的了
Excel另存CSV文件不能选择UTF-8编码,原因如下:Excel主要用来处理数据。CSV,逗号分隔值文件格式,逗号分隔值,是因为分隔字符也可以不是逗号。例如TXT就是制表符分隔。Excel支持很正常。
UTF-8属于字符编码。UNICODE支持欧洲、非洲、中东、亚洲(包括统一标准的东亚像形汉字和韩国像形文字)。虽大而全却并不高效,于是出现通用转换格式,即UTF(Universal Transformation Format)。目前存在的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及 UTF-32。
由于字符编码种类非常多,因此Excel有选择性的支持了ANSI(微软自已的)和UNICODE(大而全),不支持UTF-8很正常。记事本支持UTF-8编码。
言归正传,编码问题解决了,python即可轻松读取这个csv文件了,语句如下:
import pandas as pd
df1=pd.read_csv(r'DATA/SWPS REPORT 2.15-utf8.csv', skiprows=11)
数据读入后要观察数据,根据数据的特点和业务的需求对数据经行一系列的预处理。
拭目以待吧:)
补充:其实python读取文件通用的语句是read_x(参数)
x= csv, table, excel
参数=文件路径和名称,关于行的一些操作,关于列的一些操作,很多很多。。。
更多推荐
python获取erp数据_python自学之路-数据读取
发布评论