大数据
-
elasticsearch7.x 开启安全认证xpack,以及kibana、logstash、filebeat组件连接开启安全认证的es;
文章目录 一、 elasticsearch7.x 开启安全认xpack 1.生成认证文件 2.修改elasticsearch配置文件开启xpack 3.重启各个es节点并设置用户名…
-
Hive:聚合函数、GROUP BY、ORDER BY、LIMIT、执行顺序和JOIN、函数
1.聚合函数 常见的聚合函数:Count、Sum、Max、Min和Avg 特点:不管原始数据多少条,聚合之后只有一条 Count(column)返回某列的行数,不包括NULL值 2…
-
Kafka的监控和报警机制
Kafka的监控和报警机制是保证Kafka集群的稳定和可靠运行的重要组成部分。本文将详细介绍Kafka的监控和报警机制,包括监控指标、监控工具、报警配置和报警策略等。 1. 监控指…
-
记一次大数据批量处理的优化
背景 我所负责的业务核心链路主要是通过定时任务,处理接入到平台产品的批量的离线数据,通过http接口发送给下游系统。虽然逻辑比较简单,但是随着业务的不断扩展,数据量不断增长,每天处…
-
es7.17版本之后的查询警告提示解决办法
#! Elasticsearch built-in security features are not enabled. Without authentication, your …
-
【flink】状态清理策略(TTL)
flink的keyed state是有有效期(TTL)的,使用和说明在官网描述的篇幅也比较多,对于三种清理策略没有进行横向对比得很清晰。 全量快照清理(FULL_STATE_SCA…
-
Hive中处理中文乱码问题的解决方法
中文乱码是在处理大数据时经常遇到的问题之一,尤其是在使用Hive进行数据分析和查询时。本文将介绍一些解决Hive中文乱码问题的方法,并提供相应的源代码示例。 设置Hive的字符集编…
-
Hadoop 分布式集群搭建教程(2023在校生踩坑版)
博主本人,民办本科数据科学与大数据技术专业在读生,配置Hadoop过程中,遇到了好多好多坑,大部分遇到的问题都是因为课本上的代码和名称适用于Hadoop2.x,而现在主流已经变为H…
-
Elasticsearch系列组件:Logstash强大的日志管理和数据分析工具
Elasticsearch 是一个开源的、基于 Lucene 的分布式搜索和分析引擎,设计用于云计算环境中,能够实现实时的、可扩展的搜索、分析和探索全文和结构化数据。它具有高度的可…
-
Flink SQL Regular Join 、Interval Join、Temporal Join、Lookup Join 详解
Flink ⽀持⾮常多的数据 Join ⽅式,主要包括以下三种: 动态表(流)与动态表(流)的 Join 动态表(流)与外部维表(⽐如 Redis)的 Join 动态表字段的列转⾏…
-
Flink运行架构以及容错机制
Flink运行架构以及容错机制 1. Flink的角色区分 1.1 JM 1.2 TM 1.3 SLOT 2. Flink-Cluster模式的任务提交流程 2.1 Flink O…
-
Spark与其他大数据技术的集成:实现数据处理的融合
1.背景介绍 1. 背景介绍 大数据技术已经成为当今企业和组织中不可或缺的一部分。随着数据的规模和复杂性的增加,需要更高效、可靠的数据处理和分析方法。Apache Spark作为一…
-
hadoop修改配置文件和环境变量
前言 在我们安装好hadoop之后,需要对其内部的一些配置文件进行修改,以满足特定的需求和环境,确保Hadoop集群的正常运行和数据的正确处理。 一、配置文件类型 1、Hadoop…
-
[hadoop全分布部署]虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录
👨🎓👨🎓博主:发量不足 个人简介:耐心,自信来源于你强大的思想和知识基础!! 📑📑…
