spark
-
基于Spark技术的医疗保健系统设计与实现-计算机毕业设计源码04022
摘 要 信息化的今天,计算机网络、Internet扮演的角色也越来越重要,其核心的数据库技术正在改变着我国各个领域的管理模式,而作为传统的医院模式也面临着重大变革。管理系统现代化…
-
spark与scala的对应版本查看
仓库地址 https://mvnrepository.com/artifact/org.apache.spark/spark-core 总结 spark3.0 以后,不再支持 sc…
-
特征向量中心度(eigenvector centrality)算法原理与源码解析
前言 随着图谱应用的普及,图深度学习技术也逐渐被越来越多的数据挖掘团队所青睐。传统机器学习主要是对独立同分布个体的统计学习,而图深度学习则是在此基础上扩展到了非欧式空间的图数据之上…
-
Python学习之PySpark案例实战
PySpark案例实战 前言介绍 Spark是什么 Apache Spark是用于大规模数据(large-scala data)处理的统一 (unified) 分析引擎。 简单来说…
-
Spark内核解析-内存管理7(六)
1、Spark内存管理 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spa…
-
idea配置spark环境
1. 首先,需要准备maven的环境配置,我的idea是2021版本,(新版应该差不多) 下载maven的版本包,建议去官网下载Maven – Maven Releases Hi…
-
Spark五:Spark的两种核心Shuffle
Shuffle 在MapReduce框架中,Shuffle阶段是链接Map和Reduce之间的桥梁,Map阶段通过Shuffle过程将数据输出到Reduce阶段中。由于 Shuff…
-
大数据实验 实验六:Spark初级编程实践
Spark初级编程实践 实验环境:Windows 10 Oracle VM VirtualBox 虚拟机:cnetos 7 Hadoop 3.3 实验内容与完成情况: 1. 安装h…
-
全国职业院校技能大赛-大数据 离线数据处理模块-环境准备
这部分不是很难,只需要创建一个基本的maven项目,引入对应的mysql驱动和spark依赖项之后,将hive的配置文件放到resources目录下就可以了 1. 首先使用idea…
-
大数据处理与分析-Spark
导论 (基于Hadoop的MapReduce的优缺点) MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce…
-
Spark入门(一篇就够了)
文章目录 引言 1. Spark 基础 1.1 Spark 为何物 1.2 Spark VS Hadoop 1.3 Spark 优势及特点 1.3.1 优秀的数据模型和丰富计算抽象…
-
Flink知识点总结 Flink简介
Flink简介 Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多…
-
大数据开发语言Scala(一)——scala入门
累了,基础配置不想写了,直接抄了→Scala的环境搭建 这里需要注意的是,创建新项目时,不要用默认的Class类,用Object,原因看→scala中的object为什么可以直接运…
-
Spark与Kafka的集成与流数据处理
Apache Spark和Apache Kafka是大数据领域中非常流行的工具,用于数据处理和流数据处理。本文将深入探讨如何在Spark中集成Kafka,并演示如何进行流数据处理。…
-
基于Spark协同过滤算法的推荐系统的设计与实现
文章目录 基于Spark协同过滤算法的推荐系统的设计与实现[已开源] 一、架构 1.1 总架构 1.2、数仓架构 4.3 功能设计 4.4 ER图 4.5 系统流程图 三、推荐系统…
