现有的pandas库提供丰富的API尤其是DataFrame API来操作结构化数据;同时阿里云ODPS本身作为大数据处理平台,提供了海量数据的能力,其中ODPS SQL是ODPS上主要的结构化数据处理语言。然而,Pandas作为单机的库,计算能力有限;ODPS SQL能处理大量数据,但受限于SQL的表达能力。因此,PyODPS DataFrame框架提供了一种类似于Pandas DataFrame的API,但是能运用ODPS的海量数据计算能力,对结构化数据来执行查询。DataFrame框架目前将所有操作编译成ODPS SQL来执行,也能在本地使用pandas计算。同时,PyODPS提供了类似scikit-learn类似的接口,通过输入和输出PyODPS DataFrame,能让用户无需学习成本,就能用类似scikit-learn的体验进行机器学习和数据挖掘。
浏览794次
浏览4586次
浏览1224次
浏览1364次
浏览1607次
浏览1266次
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
2025-10-23 上海
打开微信扫一扫,分享到朋友圈