优秀的编程知识分享平台

网站首页 > 技术文章 正文

Pyspark实践(pyspark例子)

nanyue 2024-10-01 13:03:11 技术文章 6 ℃

今天分配到一个大数据分析的活,需要写sql分析注册媒体之间的关联性,用普通的hive sql写比较麻烦,线上测试也比较慢,于是我将目光转向了pyspark。pyspark的好处之一是可以用csv格式数据作为测试数据进行本地测试,相对于在公司平台上直接查询hive表数据,速度快了百倍,本地还可以直接进行断点测试,体验不要飞起。然而今天在测试时候出现了一个报错:pyspark.errors.exceptions.base.PySparkRuntimeError: [JAVA_GATEWAY_EXITED] Java gateway process exited before sending its port number.问题原因看是说没有安装java环境。注意这里java需要安装java8,java更高版本的不行。(pyspark版本为3.5)

Mac OS安装java8主要分为三步,第一步从oracle官网上下载对应的dmg包,解压以后安装,第二步设置JAVA_HOME,通过执行/usr/libexec/java_home 命令获取java_home地址,然后 vim ~/.bash_profile 添加 $JAVA_HOME全局变量,source ~/.bash_profile可以生效,使用java -version可以看到目前java命令已经生效

Tags:

最近发表
标签列表