人家都说人生苦短, 要学Python。我也是看中计算机快速处理数据的优势,非常想学习这门语言,这真要开始了,确实觉得万事开头难,就此记录下这其中点点滴滴。

系统学习有些大海捞针,还是根据自己的实际需要,有针对性地学些力所能及的操作开始。我的目标是设计一个快速清洗订单报告的python程序,可以按照不同的标准分流数据,查看到底是哪类订单出现了收货不及时的问题,为解决这个问题找到方向.

软件的准备:之前走过一些弯路, 请大家按照下面方法按照Anacoda来获取python:https://zhuanlan.zhihu/p/25198543 , 当你完成安装, 打开Jupyter Notebook, 就可以开始编程了:

第一, 需要把从订单系统中导出的CSV数据报表,导入python。

导入数据的基本方法, 请看这个视频:https://www.youtube/watch?v=5_QXMwezPJE&list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y&index=2​www.youtube

很简单的一步,但是却很挠头,因为公司的电脑是全英文的,自己的电脑是中文系统的,excel版本还不一样, 同样的命令它就有时候可以,有时候不行!!

最终找到了原因:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x97 in position 27: invalid start byte

关键是要把CSV文件变成utf-8编码的文件。

1.如果你的excel 另存为可以出现这个格式, 存成这个utf8格式就可以了。

2. 如果你的excel 另存为没有这个格式,按照以下方法:首先将Excel文件保存为CSV格式

将CSV格式在记事本中打开

选择另存为,同时将“编码(E)"选择为 UTF-8

点保存(S),就达到目的了

Excel另存CSV文件不能选择UTF-8编码,原因如下:Excel主要用来处理数据。CSV,逗号分隔值文件格式,逗号分隔值,是因为分隔字符也可以不是逗号。例如TXT就是制表符分隔。Excel支持很正常。

UTF-8属于字符编码。UNICODE支持欧洲、非洲、中东、亚洲(包括统一标准的东亚像形汉字和韩国像形文字)。虽大而全却并不高效,于是出现通用转换格式,即UTF(Universal Transformation Format)。目前存在的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及 UTF-32。

由于字符编码种类非常多,因此Excel有选择性的支持了ANSI(微软自已的)和UNICODE(大而全),不支持UTF-8很正常。记事本支持UTF-8编码。

言归正传,编码问题解决了,python即可轻松读取这个csv文件了,语句如下:

import pandas as pd

df1=pd.read_csv(r'DATA/SWPS REPORT 2.15-utf8.csv', skiprows=11)

数据读入后要观察数据,根据数据的特点和业务的需求对数据经行一系列的预处理。

拭目以待吧:)

补充:其实python读取文件通用的语句是read_x(参数)

x= csv, table, excel

参数=文件路径和名称,关于行的一些操作,关于列的一些操作,很多很多。。。

更多推荐

python获取erp数据_python自学之路-数据读取