乱码问题总结

今天在使用neo4j构建知识图谱时,读取建立好csv文件出现了报错,发现是乱码问题。在搜索了很多相关资料后,发现都不是很全面。于是做一个总结以供大家参考。

科普知识:
python默认的编码是utf-8,所以一般的思路可能都是我们使用encoding=“utf-8"就好了。其实不然,还要看读取的文件是什么类型,如果你的文件也是"utf-8”,那就是OK的。但是如果你的文件是其他编码类型,你就需要设置为对应的编码。

怎么看csv文件编码类型
直接右击文件,选择记事本打开,在记事本右下角便能看见对面的编码类型。

我遇见的坑
我是将自己做好的csv文件给别人修改,然后被修改为xlsx文件后,我再将其转换为csv文件,也对应了其编码,可是就是乱码。在网上搜索了很多方法后,都没解决。最后用了一个蠢方法:将xlsx文件的内容重新复制到一个新的excel表格中,再保存为csv文件就搞定了。

中文编码
其实中文编码就哪几种,比如:GBK、ANSI等等,其他的可以自行百度。上面的地方有的不懂的,也可以直接将编码格式挨个代进去尝试(实例:encoding=“编码格式”)。

觉得有用的不要三连,让更多有需要的人发现它!!!

以上是一些总结笔记,仅供参考,如若有错,还请在评论区指正!

更多推荐

python读取文件——乱码问题总结