大数据
-
大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓
前言 本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据理论体系 姊妹篇 《分布式数据…
-
大数据技术(林子雨版)——期末复习知识点
==> 大数据&云计算 大数据时代的三次信息化浪潮:[时间;标志;解决的问题;代表企业] 1980年前后;个人计算机;信息处理;Intel,IBM…… 1995年前后…
-
hive lag() 和lead()函数
LAG 和 LEAD函数简介 Hive 中的 LAG 和 LEAD 函数时,通常用于在结果集中获取同一列在前一行(LAG)或后一行(LEAD)的值。这在分析时间序列数据、计算变化率…
-
鲜果蓝产品在做营销时利用小红书发布图文笔记有哪些注意事项?
笔记要有趣有质感:笔记是一种创意,它要有趣有质感,要有让人耳目一新的感觉,而不是仅仅把产品简单地介绍一遍就收工,要用文字的艺术把产品的特点表现出来,让读者看得赏心悦目,让读者更加热…
-
【flink番外篇】15、Flink维表实战之6种实现方式-完整版(1)
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
Spark Exchange节点和Partitioning
Exchange 在explain时,常看到Exchange节点,这个节点其实就是发生了数据交换 此图片来自于网络截取 BroadcastExchangeExec 主要是用来广播…
-
大数据小白初探HDFS从零到入门(一)
目录 1. 前言 2. 大数据的诞生 3.发展趋势及应用 4.离线计算和实时计算 5.大数据的特性 1. 前言 前两天把Hbase的初级入门知识整理了下,在文章中提…
-
Hive之set参数大全-1
A 控制是否允许在需要时按需加载用户定义函数(UDF) hive.allow.udf.load.on.demand 是 Apache Hive 中的一个配置属性,用于控制是否允许在…
-
【HBase】——优化
1 RowKey设计 重要:一条数据的唯一标识就是 rowkey,那么这条数据存储于哪个分区,取决于 rowkey 处于 哪个一个预分区的区间内,设计 rowkey的主要目的 ,就…
-
大数据与云计算——部署Kubernetes集群并完成nginx部署(超级详细!)
大数据与云计算——部署Kubernetes集群并完成nginx部署(超级详细!) 部署 Kubernetes 集群的基本思路如下: 准备环境: 选择适合的操作系统:根据需求选择适合…
-
53、Flink 的Broadcast State 模式介绍及示例
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
Hive实战 — 电子商务消费行为分析
目录 数据结构 Customer表 Transaction表 Store表 Review表 上传数据 创建目录用于存放数据 把本地文件上传到HDFS上 创建外部表 创建数据库 创…
-
【MongoDB】一文带你快速掌握MongoDB文档插入和查询
文章目录 前言 发现宝藏 一、单个文档插入 1. 语法格式 2. 参数 3. 示例 5. 提示 二、批量文档插入 1. 语法格式 2. 参数 3. 示例 4. 提示 三、文档的基本…
-
重新认识Elasticsearch-一体化矢量搜索引擎
前言 2023 哪个网络词最热?我投“生成式人工智能”一票。过去一年大家都在拥抱大模型,所有的行业都在做自己的大模型。就像冬日里不来件美拉德色系的服饰就会跟不上时代一样。这不前段时…
-
Spark概述
Spark概述 Spark是什么 Apache Spark是一个快速的,多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存…
