大数据 | 第7页 | 协通编程

数据库

elasticsearch7.x 开启安全认证xpack，以及kibana、logstash、filebeat组件连接开启安全认证的es；

文章目录一、 elasticsearch7.x 开启安全认xpack 1.生成认证文件 2.修改elasticsearch配置文件开启xpack 3.重启各个es节点并设置用户名…

1天前

大数据

Hive：聚合函数、GROUP BY、ORDER BY、LIMIT、执行顺序和JOIN、函数

1.聚合函数常见的聚合函数：Count、Sum、Max、Min和Avg 特点：不管原始数据多少条，聚合之后只有一条 Count(column)返回某列的行数，不包括NULL值 2…

1天前

大数据

Kafka的监控和报警机制

Kafka的监控和报警机制是保证Kafka集群的稳定和可靠运行的重要组成部分。本文将详细介绍Kafka的监控和报警机制，包括监控指标、监控工具、报警配置和报警策略等。 1. 监控指…

1天前

记一次大数据批量处理的优化

背景我所负责的业务核心链路主要是通过定时任务，处理接入到平台产品的批量的离线数据，通过http接口发送给下游系统。虽然逻辑比较简单，但是随着业务的不断扩展，数据量不断增长，每天处…

大数据 1天前

es7.17版本之后的查询警告提示解决办法

#! Elasticsearch built-in security features are not enabled. Without authentication, your …

大数据 1天前

大数据

ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException：无效的 Spark URL：

………………………………&#8230…

1天前

大数据

【flink】状态清理策略(TTL)

flink的keyed state是有有效期(TTL)的，使用和说明在官网描述的篇幅也比较多，对于三种清理策略没有进行横向对比得很清晰。全量快照清理(FULL_STATE_SCA…

1天前

Hive中处理中文乱码问题的解决方法

中文乱码是在处理大数据时经常遇到的问题之一，尤其是在使用Hive进行数据分析和查询时。本文将介绍一些解决Hive中文乱码问题的方法，并提供相应的源代码示例。设置Hive的字符集编…

大数据 1天前

大数据

Hadoop 分布式集群搭建教程（2023在校生踩坑版）

博主本人，民办本科数据科学与大数据技术专业在读生，配置Hadoop过程中，遇到了好多好多坑，大部分遇到的问题都是因为课本上的代码和名称适用于Hadoop2.x，而现在主流已经变为H…

1天前

数据库

Elasticsearch系列组件：Logstash强大的日志管理和数据分析工具

Elasticsearch 是一个开源的、基于 Lucene 的分布式搜索和分析引擎，设计用于云计算环境中，能够实现实时的、可扩展的搜索、分析和探索全文和结构化数据。它具有高度的可…

1天前

大数据

Flink SQL Regular Join 、Interval Join、Temporal Join、Lookup Join 详解

Flink ⽀持⾮常多的数据 Join ⽅式，主要包括以下三种：动态表（流）与动态表（流）的 Join 动态表（流）与外部维表（⽐如 Redis）的 Join 动态表字段的列转⾏…

1天前

大数据

Flink运行架构以及容错机制

Flink运行架构以及容错机制 1. Flink的角色区分 1.1 JM 1.2 TM 1.3 SLOT 2. Flink-Cluster模式的任务提交流程 2.1 Flink O…

1天前

Spark与其他大数据技术的集成：实现数据处理的融合

1.背景介绍 1. 背景介绍大数据技术已经成为当今企业和组织中不可或缺的一部分。随着数据的规模和复杂性的增加，需要更高效、可靠的数据处理和分析方法。Apache Spark作为一…

大数据 1天前

大数据

hadoop修改配置文件和环境变量

前言在我们安装好hadoop之后，需要对其内部的一些配置文件进行修改，以满足特定的需求和环境，确保Hadoop集群的正常运行和数据的正确处理。一、配置文件类型 1、Hadoop…

1天前

大数据

[hadoop全分布部署]虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录

👨‍🎓👨‍🎓博主：发量不足个人简介：耐心，自信来源于你强大的思想和知识基础！！ 📑&#x1f4d1…

1天前