spark
-
大数据开发语言Scala(一)——scala入门
累了,基础配置不想写了,直接抄了→Scala的环境搭建 这里需要注意的是,创建新项目时,不要用默认的Class类,用Object,原因看→scala中的object为什么可以直接运…
-
Spark与Kafka的集成与流数据处理
Apache Spark和Apache Kafka是大数据领域中非常流行的工具,用于数据处理和流数据处理。本文将深入探讨如何在Spark中集成Kafka,并演示如何进行流数据处理。…
-
基于Spark协同过滤算法的推荐系统的设计与实现
文章目录 基于Spark协同过滤算法的推荐系统的设计与实现[已开源] 一、架构 1.1 总架构 1.2、数仓架构 4.3 功能设计 4.4 ER图 4.5 系统流程图 三、推荐系统…
-
在IDEA运行spark程序(搭建Spark开发环境)
建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境,以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习,…
-
Spark大数据分析与实战笔记(第二章 Spark基础-03)
文章目录 每日一句正能量 章节概要 2.3 Spark运行架构与原理 2.3.1 基本概念 2.3.2 Spark集群运行架构 2.3.3 Spark运行基本流程 总结 每日一句正…
-
网约车大数据综合项目——数据分析Spark
网约车大数据综合项目——数据分析Spark 第1关: 统计撤销订单中撤销理由最多的前 10 种理由 import org.apache.log4j.Level; import or…
-
配置Hive使用Spark执行引擎
配置Hive使用Spark执行引擎 Hive引擎 概述 兼容问题 安装Spark Spark配置 Hive配置 HDFS上传Spark的jar包 执行测试 速度对比 Hive引擎 …
-
Spark on Yarn安装配置
Spark on Yarn安装配置 本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下: 1、从宿主机/opt目录下将文件spark-3.1…
-
Spark入门教程(非常详细)从零基础入门到精通,看完这一篇就够了
文章目录 引言 1. Spark 基础 1.1 Spark 为何物 1.2 Spark VS Hadoop 1.3 Spark 优势及特点 1.3.1 优秀的数据模型和丰富计算抽象…
-
2024.1.15 Spark 阶段原理,八股,面试题
目录 1. 简述什么是Spark? 2. 简述Spark的四大特点 3. 简述Spark比Mapreduce执行效率高的原因 4. 简述Spark on Yarn的两种部署模式的区…
-
Spark编程实验二:RDD编程初级实践
目录 一、目的与要求 二、实验内容 三、实验步骤 1、pyspark交互式编程 2、编写独立应用程序实现数据去重 3、编写独立应用程序实现求平均值问题 4、三个综合实例 四、结果分…
-
关于hive on spark部署后insert报错Error code 30041问题
报错问题描述 ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.e…
-
Spark大数据分析与实战笔记(第二章 Spark基础-04)
文章目录 每日一句正能量 引言 章节概要 2.4 体验第一个Spark程序 2.4.1 运行Spark官方示例SparkPi 总结 每日一句正能量 “春风十里,不如你。” 这句来自…
-
Spark项目实战,详细操作图文详解(基于Spark MLlib的鸢尾花聚类项目实战、基于Spark GraphX的航班飞行网图分析)
目录 一、基于MLlib的鸢尾花聚类项目实战 1.1 项目背景 1.1.1 背景 1.1.2 数据 1.2 项目实战步骤(图文详解) 二、基于GraphX的航班飞行网图分析 2.1…
-
Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文)
说明: 本篇将详细介绍用二进制安装包部署hadoop等组件,注意事项,各组件的使用,常用的一些命令,以及在部署中遇到的问题解决思路等等,都将详细介绍。 1.环境说明 1.1 ip规…
