hadoop
-
大数据基础编程、实验和教程案例(实验七)
你好# 大数据基础编程、实验和教程案例(实验七) 14.5 实验五:MapReduce 初级编程实践 本实验对应第 9 章的内容。 14.7.1 实验目的 (1)掌握使用 Spar…
-
今天又get到一个小技能,collect
collect_set函数 今天又get到一个小技能,掌握了hive一个关于列转行专用函数 collect_set函数。 在这里做个学习笔记。 collect_set是Hive内置…
-
Hive分区表实战 – 单分区字段
文章目录 一、实战概述 二、实战步骤 (一)创建图书数据库 (二)创建国别分区的图书表 (三)在本地创建数据文件 (四)按分区加载数据 1、加载中文书籍数据到`country=cn…
-
超详细的hive和mysql的安装与配置以及hive服务启动脚本
目录 一、说明 二、Hive安装与配置 1.上传文件并解压 2.修改目录名称 3.配置hive环境变量 4.删除冲突jar包 5.启动hadoop集群 6.初始化元数据库并启动 三…
-
Python 操作大数据使用 Hadoop
更多资料获取 📚 个人网站:ipengtao.com 在当今的数据驱动世界中,处理大规模数据是一项重要的任务。Hadoop 是一个广泛使用的开源框架,用于存储和处理…
-
实操Hadoop大数据高可用集群搭建(hadoop3.1.3+zookeeper3.5.7+hbase3.1.3+kafka2.12)
前言 纯实操,无理论,本文是给公司搭建测试环境时记录的,已经按照这一套搭了四五遍大数据集群了,目前使用还未发现问题。 有问题麻烦指出,万分感谢! PS:Centos7.9、Rock…
-
hive中map相关函数总结
目录 hive官方函数解释 示例 实战 hive官方函数解释 hive官网函数大全地址: hive官网函数大全地址 Return Type Name Description map…
-
Python 3 使用Hadoop 3之MapReduce总结
MapReduce 运行原理 MapReduce简介 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce分成…
-
从零开始的Hadoop学习(四)| SSH无密登录配置、集群配置
1. SSH 无密登录配置 1.1 配置 ssh (1)基本语法 ssh 另一台电脑的IP地址 (2)ssh 连接时出现 Host key verification failed …
-
mac-hadoop3.3.6 源码构建以及踩坑记录
1. 为什么需要构建源码 因为hadoop的可执行文件 是在专门的机器上编译的 其中native库 不一定能适用于每个机器 导致在启动hadoop过程中 出现烦人的警告 WARN …
-
[HADOOP]数据倾斜的避免和处理
避免数据倾斜 初始设计方面: 设计阶段考虑数据分布,并尽可能确保数据均匀分布。预处理数据: 在数据加载到 Hadoop 之前进行预处理,以减少倾斜。使用抽样或统计方法来了解数据分布…
-
使用sqoop从Hive导出数据到MySQL
1、启动hadoop:start-all.sh。 2、启动mysql:support-files/mysql.server start。 3、启动hive:hive。 4、在hiv…
-
Hive详解、配置、数据结构、Hive CLI
一、Hive 认识 1. Hive 应用 问题:公司的经营状况? 主题一:财务 现金流 指标1.1:净现金流入/流出量 指标1.2:现金转换周期 预算执行状况 指标2.1:预算内成…
-
Hive实战:计算总分与平均分
这里写目录标题 一、实战描述 二、提出任务 三、完成任务 (一)准备数据文件 1、在虚拟机上创建文本文件 2、将文本文件上传到HDFS指定目录 (二)实现步骤 1、启动Hive M…
-
Hadoop学习-集群配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml
配置核心文件 core-site.xml 编辑core-site.xml(进入hadoop文件夹内) vim etc/hadoop/core-site.xml ———-…
