Python爱好者俱乐部

主题：Python爱好者俱乐部

正序浏览

主题图片汇总

主题内检索

浏览：18187 回帖：542

游客没有回帖权限

arondes

陈年泡菜

泡网分: 51.613

主题: 197

帖子: 34450

年内主力装备

GFX100S

LEICA M (Typ 262)

★ NIKON Z 7_2

2022-05-14 01:18

大信发表于 2022-5-9 12:20
在使用pandas的Dataframe的时候遇到一个问题，报错信息显示“页面文件太小，无法操作”，以及out of memory

我编写的python程序中使用了多线程，dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况，当多进程启动后内存占用逐步提高，在接近9GB的时候，程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?

请路过的各位python专家帮忙看看报错信息，分析原因帮忙解决。谢谢！

@nahcooo @yejun @benniewang @闲聊状态

看看能不能把dataframe里面的一些字段的数据类型压缩一下比如用int8 float16 还有就是最好回避object类型

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 394 帖

Cityrain

陈年泡菜

泡网分: 46.567

主题: 72

帖子: 10147

2022-05-13 17:07

想想心痛发表于 2022-05-13 15:43
当然python当作一门编程语言，当然能搞定一切，但得结合数据库才能搞定，如果和excel配合是不行的。

哈哈，我经常把数据库的数据拉到python里处理，灵活性比数据库高很多。单独数据库很难做到全程自动化，但用编程语言就可以把信息输入，处理，结果输出和呈现一口气搞定。
发布自 iOS客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 393 帖

E3U3

泡菜

泡网分: 5.499

主题: 5

帖子: 5454

2022-05-13 17:04

python虽然编起来简单，有大量第三方库支持，但基本的循环，判断等编程逻辑思想，数据结构知识还是要有的。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 392 帖

想想心痛

泡菜

泡网分: 4.339

主题: 61

帖子: 3056

2022-05-13 15:43

Cityrain 发表于 2022-5-13 15:15
这些东西如果数据不大的话，应该excel就能搞定。
数据的处理和计算的话，python理论上可以搞定一切，当然只学个入门课程是不太够的。我access没怎么用过，但应该不比Oracle之类的强大，你觉得access能搞定的，我看python铁定可以办到。

当然python当作一门编程语言，当然能搞定一切，但得结合数据库才能搞定，如果和excel配合是不行的。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 391 帖

Cityrain

陈年泡菜

泡网分: 46.567

主题: 72

帖子: 10147

2022-05-13 15:15

想想心痛发表于 2022-05-13 12:59
主要是涉及财务对账方面的内容。比如：一家外协厂商领料加工，每月加工费对账，但同时涉及领用的材料，要计算加工所用材料的正常损耗，超出损耗扣材料...

这些东西如果数据不大的话，应该excel就能搞定。
数据的处理和计算的话，python理论上可以搞定一切，当然只学个入门课程是不太够的。我access没怎么用过，但应该不比Oracle之类的强大，你觉得access能搞定的，我看python铁定可以办到。
发布自 iOS客户端

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 390 帖

想想心痛

泡菜

泡网分: 4.339

主题: 61

帖子: 3056

2022-05-13 12:59

大信发表于 2022-5-13 10:21
很感兴趣，你说的办公自动化具体是什么内容，为啥access可以完成而python不能？

主要是涉及财务对账方面的内容。比如：一家外协厂商领料加工，每月加工费对账，但同时涉及领用的材料，要计算加工所用材料的正常损耗，超出损耗扣材料费等，剩下材料结存加上月结存共结存多少。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 389 帖

至暗时刻

禁言中

泡网分: 0.999

主题: 15

帖子: 828

2022-05-13 12:52

把Python编译成EXE文件体积太大了, 动辄几十MB甚至成百MB, 玩了几次就放弃了.
有段时间迷上了PHP编译, 把PHP程序编译成EXE最小只有500多KB. 即使打包几个库进去通常也只有2-4MB. 于是用PHP写了很多小玩意儿编译成了小巧的命令行小工具, 真是方便至极. 感觉PHP在处理文字、图片、数据库、文件系统甚至爬虫这些方面并不比Python差，玩熟练了一样简单好用.

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 388 帖

alchen

老坛泡菜

泡网分: 32.841

主题: 58

帖子: 4056

2022-05-13 11:32

python适合不想在计算机语言上花费太多精力的人。也被程序员选择用于强调开发效率的场景。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 387 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-05-13 10:21

想想心痛发表于 2022-5-10 10:38
以办公室自动化目标来学python的，到后来就会发现这是一个骗局。python根本无法实现所谓的办公自动化，如果真有这类需求，学习的目标应该是access。

很感兴趣，你说的办公自动化具体是什么内容，为啥access可以完成而python不能？

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 386 帖

闲聊状态

泡菜

泡网分: 18.239

主题: 11

帖子: 15129

2022-05-11 11:03

现在办公室都让卸载office了

装WPS

access 没戏了

用sqlite吧 python就集成了。。。

大数据还是sql吧我是不习惯 pandas 里来回的鼓捣数据，就是觉得不如sql方便

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 385 帖

至暗时刻

禁言中

泡网分: 0.999

主题: 15

帖子: 828

2022-05-11 08:57

想想心痛发表于 2022-5-10 10:38
以办公室自动化目标来学python的，到后来就会发现这是一个骗局。python根本无法实现所谓的办公自动化，如果真有这类需求，学习的目标应该是access。

这是两码事. 只有Python实现不了你的目标, 只有 Access更实现不了你的目标. 所以2个都要学.

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 384 帖

benniewang

资深泡菜

泡网分: 46.892

主题: 170

帖子: 9709

2022-05-10 23:37

大信发表于 2022-5-10 09:12
excel处理数据就不够干净、整齐吗？
能不能解释一下？

不是excel处理后的数据不够干净整齐，是excel无法处理不够干净整齐的数据。

数值型的没啥问题，但是字符数据的清理，excel根本不行。除非用vba，跟python没啥区别了。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 383 帖

benniewang

资深泡菜

泡网分: 46.892

主题: 170

帖子: 9709

2022-05-10 23:33

大信发表于 2022-5-10 09:08
凭上面的文字和图片，你怎么判断是生产项目的？

就算在单位做项目，也都是一些带有研究性质的，不会用到实时，不会用到多线程，至少自己不会去开，或许有的库会自动做多线程处理，但这是库的功能而已。有的项目数据量确实很大，但是从来也达不到内存溢出的情况。不过就算遇到也不是什么大问题，公司有专门的计算服务器，再不行，放在云上。

研究性质的项目，代码怎么方便怎么来，不考虑代码运行效率，因此不做代码优化，唯一的要求是代码编写效率要高，要迅速把算法用代码实现，然后让机器慢慢的跑就行了。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 382 帖

想想心痛

泡菜

泡网分: 4.339

主题: 61

帖子: 3056

2022-05-10 10:38

以办公室自动化目标来学python的，到后来就会发现这是一个骗局。python根本无法实现所谓的办公自动化，如果真有这类需求，学习的目标应该是access。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 381 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-05-10 09:12

benniewang 发表于 2022-5-9 21:28
那是你没用到而已，比方说：数据很干净，数据格式很整齐。。。

excel处理数据就不够干净、整齐吗？
能不能解释一下？

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 380 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-05-10 09:10

nahcooo 发表于 2022-5-9 17:41
看着就是内存不足的原因，你的9GB占用是从哪里得到的？资源管理器刷新要时间，对于瞬间的高占用可能无法及时显示。

你可以试着每次大量开内存前先在python里主动询问一下内存剩余，并且记录日志。这样应该比资源管理器准确。

就是从资源管理器看内存占用，实际上比较滞后。内存用尽程序已崩溃，但是资源管理器还没有显示。
python 查询内存是个好办法！

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 379 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-05-10 09:08

benniewang 发表于 2022-5-9 21:29
我做的基本都不是生产的项目，所以从来没碰到过这样的事情。

凭上面的文字和图片，你怎么判断是生产项目的？

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 378 帖

yejun

老坛泡菜

泡网分: 34.505

主题: 35

帖子: 3462

2022-05-10 02:29

大信发表于 2022-5-9 14:08
的确就是内存不足的原因。
我把程序放到服务器上运行，那里有256GB内存，运行完全没有问题。

Windows 上资源管理器中对使用内存的显示滞后，以至于给我错觉9GB就崩溃，可能那时候实际使用的内存已经达到硬件极限，只是没有显示出来而已。

谢谢！

内存不够可以考虑上pandas+pyspark+数据湖，就可以处理大数据了。 本帖最后由 yejun 于 2022-5-10 02:33 编辑

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 377 帖

benniewang

资深泡菜

泡网分: 46.892

主题: 170

帖子: 9709

2022-05-09 21:29

大信发表于 2022-5-9 12:20
在使用pandas的Dataframe的时候遇到一个问题，报错信息显示“页面文件太小，无法操作”，以及out of memory

我编写的python程序中使用了多线程，dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况，当多进程启动后内存占用逐步提高，在接近9GB的时候，程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?

请路过的各位python专家帮忙看看报错信息，分析原因帮忙解决。谢谢！

@nahcooo @yejun @benniewang @闲聊状态

我做的基本都不是生产的项目，所以从来没碰到过这样的事情。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 376 帖

benniewang

资深泡菜

泡网分: 46.892

主题: 170

帖子: 9709

2022-05-09 21:28

想想心痛发表于 2022-5-5 13:33
为电子表格处理没必要学python，原因是python并不能提供更高级的处理方式，还不如多学学excel自带的函数有用，比如：xlookup()，dget()

那是你没用到而已，比方说：数据很干净，数据格式很整齐。。。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 375 帖

nahcooo

资深泡菜

泡网分: 29.179

主题: 320

帖子: 14187

2022-05-09 17:41

大信发表于 2022-5-9 12:20
在使用pandas的Dataframe的时候遇到一个问题，报错信息显示“页面文件太小，无法操作”，以及out of memory

我编写的python程序中使用了多线程，dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况，当多进程启动后内存占用逐步提高，在接近9GB的时候，程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?

请路过的各位python专家帮忙看看报错信息，分析原因帮忙解决。谢谢！

@nahcooo @yejun @benniewang @闲聊状态

看着就是内存不足的原因，你的9GB占用是从哪里得到的？资源管理器刷新要时间，对于瞬间的高占用可能无法及时显示。

你可以试着每次大量开内存前先在python里主动询问一下内存剩余，并且记录日志。这样应该比资源管理器准确。

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 374 帖

闲聊状态

泡菜

泡网分: 18.239

主题: 11

帖子: 15129

2022-05-09 14:11

大信发表于 2022-5-9 14:08
的确就是内存不足的原因。
我把程序放到服务器上运行，那里有256GB内存，运行完全没有问题。

Windows 上资源管理器中对使用内存的显示滞后，以至于给我错觉9GB就崩溃，可能那时候实际使用的内存已经达到硬件极限，只是没有显示出来而已。

谢谢！

不谢啊也没帮上什么忙

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 373 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-05-09 14:08

闲聊状态发表于 2022-5-9 13:06
看提示就是内存不足

找个32G的机器试试？
是不是有复制DataFrame 的操作？9*2 >16 ?

的确就是内存不足的原因。
我把程序放到服务器上运行，那里有256GB内存，运行完全没有问题。

Windows 上资源管理器中对使用内存的显示滞后，以至于给我错觉9GB就崩溃，可能那时候实际使用的内存已经达到硬件极限，只是没有显示出来而已。

谢谢！

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 372 帖

闲聊状态

泡菜

泡网分: 18.239

主题: 11

帖子: 15129

2022-05-09 13:06

大信发表于 2022-5-9 12:20
在使用pandas的Dataframe的时候遇到一个问题，报错信息显示“页面文件太小，无法操作”，以及out of memory

我编写的python程序中使用了多线程，dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况，当多进程启动后内存占用逐步提高，在接近9GB的时候，程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?

请路过的各位python专家帮忙看看报错信息，分析原因帮忙解决。谢谢！

@nahcooo @yejun @benniewang @闲聊状态

看提示就是内存不足

找个32G的机器试试？

是不是有复制DataFrame 的操作？9*2 >16 ?

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 371 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-05-09 12:20

在使用pandas的Dataframe的时候遇到一个问题，报错信息显示“页面文件太小，无法操作”，以及out of memory

我编写的python程序中使用了多线程，dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况，当多进程启动后内存占用逐步提高，在接近9GB的时候，程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?

请路过的各位python专家帮忙看看报错信息，分析原因帮忙解决。谢谢！

@nahcooo @yejun @benniewang @闲聊状态

登录后可直接显示原图

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 370 帖

nahcooo

资深泡菜

泡网分: 29.179

主题: 320

帖子: 14187

2022-05-05 16:20

手倦抛书发表于 2022-3-6 09:33
学了一个月爬虫，一般网页没啥问题了，但碰上全js网站就抓瞎了，逆向js太难了，看见那密密麻麻的js代码就头大

那种不需要去解析js，应该直接用webdriver打开页面后再去访问页面上的元素

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 369 帖

想想心痛

泡菜

泡网分: 4.339

主题: 61

帖子: 3056

2022-05-05 13:33

午夜半杯茶发表于 2022-3-6 14:21
从没学过编程的学Python难吗，只学关于电子表格处理的部分。

为电子表格处理没必要学python，原因是python并不能提供更高级的处理方式，还不如多学学excel自带的函数有用，比如：xlookup()，dget()

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 368 帖

yejun

老坛泡菜

泡网分: 34.505

主题: 35

帖子: 3462

2022-05-05 08:29

发现一个很有意思的project，可以直接在浏览器里面执行python。连numpy这样的库都支持。

https://github_com/pyscript/pyscript

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 367 帖

闲聊状态

泡菜

泡网分: 18.239

主题: 11

帖子: 15129

2022-03-30 09:02

午夜半杯茶发表于 2022-3-6 14:21
从没学过编程的学Python难吗，只学关于电子表格处理的部分。

我觉得这东西做电子表格的话，主要就是做“数据透视表”

如果只是干这个用accress里写SQL也可以啊而且SQL比python还简略高效

我对上下取值补空是很反感有就是有没有就是垃圾数据。。。 本帖最后由闲聊状态于 2022-3-30 09:03 编辑

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 366 帖

大信

泡菜

泡网分: 7.186

主题: 58

帖子: 1366

2022-03-29 22:55

午夜半杯茶发表于 2022-3-6 14:21
从没学过编程的学Python难吗，只学关于电子表格处理的部分。

如果功能不复杂，可能用excel处理更适合。
如果有比较复杂的处理逻辑或者重度数据的清洗整理，Python+Pandas+Numpy是不错的组合，也非常方便最终生成excel表格

(0)

只看该作者

不看该作者

加入黑名单

返回顶部

个人图文集

个人作品集

第 365 帖

< 返回版块列表

回复主题： Python爱好者俱乐部

功能受限

游客无回复权限，请登录后再试