hadoop

大数据

Spark在Windows下的环境搭建及pyspark的使用

一、JDK的安装 Spark是一个用于大数据处理的开源框架，它是用Scala编写的，而Scala是一种运行在Java虚拟机（JVM）上的编程语言，因此它依赖于Java的…

1天前

Elasticsearch 与 Hadoop 的集成实践

1.背景介绍 Elasticsearch 是一个开源的搜索和分析引擎，基于 Lucene 库，具有实时搜索、文本分析、聚合分析等功能。Hadoop 是一个分布式文件系统(HDFS)…

大数据 1天前

Hadoop-MapReduce-源码跟读-客户端篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、从WordCoun…

大数据 1天前

大数据

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！😎 前言🙌 【hadoop】解决浏览器不能访问Hadoop的50070…

1天前

大数据

Hadoop3.x完全分布式环境搭建Zookeeper和Hbase

集群规划 IP地址主机名集群身份 192.168.138.100 hadoop00 主节点 192.168.138.101 hadoop01 从节点 192.168.138.1…

1天前

大数据

【Hadoop】图解 Hadoop 生态系统及其组件

图解 Hadoop 生态系统及其组件 1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.F…

1天前

大数据

Hive 的权限管理

目录编辑一、Hive权限简介 1.1 hive中的用户与组 1.1.1 用户 1.1.2 组 1.1.3 角色 1.2 使用场景 1.2.1 hive cli 1.2.2 h…

1天前

大数据

解决Hive在DataGrip 中注释乱码问题

注释属于元数据的一部分，同样存储在mysql的metastore库中，如果metastore库的字符集不支持中文，就会导致中文显示乱码。不建议修改Hive元数据库的编码，此处我们…

1天前

大数据

一百五十九、Kettle——Kettle9.2通过配置Hadoop clusters连接Hadoop3.1.3（踩坑亲测、附流程截图）

一、目的由于kettle的任务需要用到Hadoop（HDFS），所以就要连接Hadoop服务。之前使用的是kettle9.3，由于在kettle新官网以及博客百度等渠道实在找不…

1天前

大数据

深入理解 Hadoop （五）YARN核心工作机制浅析

深入理解 Hadoop （一）网络通信架构与源码浅析深入理解 Hadoop （二）HDFS架构演进深入理解 Hadoop （三）HDFS文件系统设计实现深入理解 Hadoop…

1天前

大数据

大数据技术——Flume实战案例

实战案例目录 1. 复制和多路复用 1.1 案例需求 1.2 需求分析 1.3 实现操作 2. 负载均衡和故障转移 2.1 案例需求 2.2 需求分析 2.3 实现操作 3. 聚合…

1天前

大数据

【大数据】Hadoop

目录前言一、概述 1. MapReduce定义、优缺点 2. MapReduce核心思想、进程 3. MapReduce编程——WordCount 二、Hadoop序列化 1….

1天前

大数据

【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

文章目录一、概述二、 Ambari 与 HDP 关系三、Ambari 与 Cloudera manager 的对比 1）开源性 2）支持的发行版 3）用户界面 4）功能和扩展…

1天前

大数据

（初学者强烈推荐）Ubuntu 配置hadoop 超详细教程（全过程）

引言本文的教程仅为个人的操作经验所写，每个人下载的版本不一样，所以会出现不同的情况异常等，如有问题可询问博主或百度查找解决方法。本机的配置环境如下： hadoo…

1天前

大数据技术(林子雨版）——期末复习知识点

==> 大数据&云计算大数据时代的三次信息化浪潮：[时间；标志；解决的问题；代表企业] 1980年前后；个人计算机；信息处理；Intel，IBM…… 1995年前后…

大数据 1天前