大数据
-
大数据技术之 Flink-CDC
第 1 章 CDC 简介 1.1 什么是 CDC CDC 是 Change Data Capture(变更数据获取)的简称。在广义的概念上,只要是能捕获数据变更的技术,我们都可以称…
-
failed to authenticate user [elastic] 问题解决
1. 问题 elasticsearch 突然出现问题 Authentication of [elastic] was terminated by realm [reserved] …
-
【大数据实训】基于Hive的北京市天气系统分析报告(二)
博主介绍:✌全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌ &#…
-
Hive SQL 中ARRAY或MAP类型数据处理:lateral view explode()/posexplode()——行转列函数
前言:在对表数据进行批量处理过程中,常常碰上某个字段是一个array或者map形式的字段,一列数据的该字段信息同时存在多个值,当我们需要取出该数组中的每一个值实现一一对应关系的时候…
-
Redis与Hadoop集成
1.背景介绍 随着大数据时代的到来,数据的规模和复杂性不断增加,传统的数据库和数据处理技术已经无法满足需求。为了更有效地处理大量数据,人们开始研究和开发新的数据处理技术和架构。Re…
-
无人机航拍数据集整理
目录 1.VisDrone 2.DOTA 3.UCAS-AOD 4.UAVDT 5.UAV123 6.CARPK 7.AU-Air 8.ERA 9.VEDAI 10.ITCVD 1…
-
大数据期望最大化(EM)算法:从理论到实战全解析
文章目录 大数据期望最大化(EM)算法:从理论到实战全解析 一、引言 概率模型与隐变量 极大似然估计(MLE) Jensen不等式 二、基础数学原理 条件概率与联合概率 似然函数 …
-
spark dynamicAllocation详解及使用
我们在提交Spark应用时,一般都会指定executor数量,但我们的任务中有大的任务、也会有小的任务。这时候,我们在处理ETL的时候,会有几种选择,例如:分配一个比较大的资源,例…
-
用好 kafka,你不得不知的那些工具
前言 工欲善其事,必先利其器。本文主要分享一下消息中间件 kafka 安装部署的过程,以及我平时在工作中针对 kafka 用的一些客户端工具和监控工具。 kafka 部署架构 一个…
-
Hadoop HA集群两个NameNode都是standby或者主NameNode是standby,从NameNode是active的情况集锦
文章目录 背景 架构 HDFS HA配置 错误原因 解决方案 方案一 方案二 方案三(首先查看自己各参数文件是否配置出错) 后记 补充 failover transitionToA…
-
Perfetto分析进阶
一、Perfetto介绍 Perfetto是Android Q中引入的全新下一代平台级跟踪工具,为Android、Linux和Chrome平台提供了一种通用的性能检测和跟踪分析工具…
-
统计文本词频的几种方法(Python)
目录 1. 单句的词频统计 2. 文章的词频统计 方法一:运用集合去重方法 方法二:运用字典统计 方法三:使用计数器 词频统计是自然语言处理的基本任务,针对一段句子、一篇文章或一组…
-
28、商城系统(十):ElasticSearch的映射,nginx下载安装,es分词器,springboot整合es
目录 一、Mapping映射 1.es7删除类型 2.es给字段设置字段类型,即映射 (1)创建映射
-
Elasticsearch 基本使用(五)查询条件匹配方式(query & query
查询条件匹配方式 概述 query term terms range match_all match match 匹配精度问题 match_phrase match_pharse_…
-
Spark-3.2.4 高可用集群安装部署详细图文教程
目录 一、Spark 环境搭建-Local 1.1 服务器环境 1.2 基本原理 1.2.1 Local 下的角色分布 1.3 搭建 1.3.1 安装 Anaconda 1…
