SparkCore
一、RDD详解
1.1 什么是RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
- Dataset:一个数据集合,用于存放数据的。
- Distributed:RDD中的数据是分布式存储的,可用于分布式计算。
- Resilient:RDD中的数据可以存储在内存中或者磁盘中。


1.2 RDD的五大特征
前三个特征每个RDD都具备的,后两个特征可选的
1.2.1 RDD是有分区的
RDD的分区是RDD数据存储最小单位

本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://net2asp.com/9671cbaa2b.html
相关推荐
-
100天精通Python(可视化篇)——第82天:matplotlib绘制不同种类炫酷散点图参数说明+代码实战(二维散点图、三维散点图、散点图矩阵)
文章目录 专栏导读 0. 前言 1. 参数说明 2. 两主特征:二维散点图 1)普通散点图 2)文字标签散点图 3)带颜色映射的散点图 4
Python 1天前 -
tensorflow1.15与numpy、keras以及Python兼容版本对照
报错信息: numpy库版本不兼容问题 NotImplementedError: Cannot convert a symbolic Tensor (bi_lstm/lstm_en…
Python 1天前 -
学习笔记 | 独热编码(One-Hot Encoding)
最近学习机器学习,接触到独热编码相关内容,参考了一些资料,加上自己的思考,做出了如下总结。 一、什么是独热编码 独热编码,即 One-Hot 编码,又称一位有效编码,其方法是使用N…
1天前 -
面向对象——python中类的创建
面向对象编程——Object Oriented Programming,简称OOP,是一种以对象为中心的程序设计思想。很多高级开发语言都是面向对象的,例如,如雷贯耳的Java、谷歌…
1天前 -
python:configparser — 配置文件解析器
python:configparser — 配置文件解析器 快速起步 支持的数据类型 回退值 受支持的 INI 文件结构 值的插值 映射协议访问 定制解析器行为 旧式 …
Python 1天前 -
python 模块和包
文章目录 前言 模块 什么是模块 导入模块 import 导入模块 from 模块名 import 功能 from 模块名 import * as定义别名 制作模块 模块的定位顺序…
1天前 -
【RSA加密/解密】PKCS1
一、PKCS1_OAEP和PKCS1_v1_5是公钥加密标准中的两种填充方案。 PKCS1_OAEP(Optimal Asymmetric Encryption Padding)是…
Python 1天前 -
python求定积分:quad函数
文章目录 示例 完整参数 weight参数 示例 quad是scipy.integrate中最常用的积分函数,示例如下 import numpy as np from scipy….
Python 1天前 -
清华镜像源的使用(Python必备之物)
清华镜像源的地址为 https://pypi.tuna.tsinghua.edu.cn/simple 因此,下载各种各样的包可以这样使用清华镜像源 pip install -i h…
Python 1天前
