Python处理千万级数据

青旅半醒 2023-10-07 13:47 189阅读 0赞

从别人的论文里找到要用的数据的原始数据自己做过滤

捣鼓了两天觉得代码太慢开始用pandas做处理

不得不说最大的感触就是 pandas 以及numpy在一定程度上在还原MATLAB

比如MATLAB中利用逻辑值取数、元素的用法,pandas中有几乎一样的方法

test:

同时pandas中有很多很好用的方法,猜测使用了很多哈希值

但是pandas同numpy一样,增量添加很慢

也就是pandas适用于 已经确定size的数据的读取操作非常友好,但是把两个dataframe合并,是很慢的操作

实际上先做了数据的拷贝再进行的拼接,可想而知是多慢了

而Python里的list是一个动态数组,比较适合用于动态增长的情况,比如append,+,extends这样的方法

总之记住只对dataframe进行读取就够啦

最后写代码的时候 对于for循环要小心!!!

想清楚这个代码是不是在循环里面还是外面!!

把要在循环外面的代码先写着!!

比如这次把生成dataframe的两行代码写了for循环里面

查了好几遍才发现!! 真的很费时间!!

时间的宝贵使人进步。

加油。

————————————————
版权声明:本文为CSDN博主「HeReCJJ」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/HeReCJJ/article/details/81431240

发表评论

表情:
评论列表 (有 0 条评论,189人围观)

还没有评论,来说两句吧...

相关阅读

    相关 MySQL 数据迁移

    背景介绍 项目中表数据存在超过50%的逻辑删除数据,影响查询性能,本次计划将逻辑有效的数据迁移到新表,使得表数据量减少,索引文件减少,提高查询效率。 大体思路 通过存储

    相关 Python处理数据

    从别人的论文里找到要用的数据的原始数据自己做过滤 捣鼓了两天觉得代码太慢开始用pandas做处理 不得不说最大的感触就是 pandas 以及numpy在一定程度上在还原MA

    相关 排序数据_大数据推荐

    电子商务网站是个性化推荐系统重要地应用的领域之一,亚马逊就是个性化推荐系统的积极应用者和推广者,亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。 不光

    相关 数据处理

    千万级数据处理 前言     近日一次版本上线时,涉及到千万级数据处理,因一时疏漏造成Oracle数据库回滚段爆掉,造成版本重复发布。     系统日常运行中,产