hadoop

mongodb数据同步到hive

背景用户需求: 需要将 mongodb 的数据同步到 hive 表，共 2 亿+条数据，总数据量约 30G 查阅一些博客后，大致同步方法有以下几种手动+离线对于比较小的数据，…

大数据 1天前

大数据

大数据- Hadoop入门

目录 🐶2.1 hadoop的简介 1. 概述 2. 什么是分布式？ 3. Hadoop的指代 🐶2.2 hadoop的发展历程 🐶…

1天前

云计算与大数据期末考试题库

单选题 1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2、Hadoop作者 Ma…

大数据 1天前

【系统学习Hive常用知识】

文章目录前言一、Hive是什么？二、Hive安装配置 1.hive包安装 2、配置Hive元数据存储到MySQL 3、Hive服务部署三、Hive数据操作 1、DDL数据定…

大数据 1天前

大数据

利用Spark进行房地产分析 #Hadoop Spark Mysql

文章目录文章目录前言背景数据介绍指标介绍 1.城区和街道进行数量统计，分析房产分布和热门地区。 2.分析房产数据表中不同建造年份的房产数量情况 3.分析不同地区、楼层和户…

1天前

大数据

Hive之函数篇（使用函数看这篇足够了）

目录查询函数相关信息：（1）查看系统所有的内置函数（2）查看string相关的所有函数（3）查询某个函数的详细信息单行函数：（1）算数运算函数：（2）数值函数：（3…

1天前

大数据

初学者部署Ambari及通过Ambari安装hadoop相关组件

目录 1.准备工作 1.2初始化配置 1.2.1设置主机名 1.2.2HOSTS文件 1.2.3关闭防火墙和selinux 1.2.4免密配置(单台机器也需要) 1.2.5修改yu…

1天前

大数据

IDEA连接HBase集群

#环境介绍# 本地电脑window10 IntelliJ IDEA Community Edition 2023.2.3 虚拟机集群Hadoop3.1.4：master/slave…

1天前

已解决：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

文章目录问题描述解决方案问题描述今天在跑hive sql的时候，报错;FAILED: Execution Error, return code 1 from org.apa…

大数据 1天前

大数据

Hadoop3教程（二十六）：（生产调优篇）NameNode核心参数配置与回收站的启用

文章目录（143）NameNode内存配置（144）NN心跳并发配置（145）开启回收站参考文献（143）NameNode内存配置每个文件块（的元数据等）在内存中大概 …

1天前

大数据

Hadoop 集群环境搭建

目录第一部分：系统安装… 3 1：图形化安装… 3 2：选择中文… 3 3：安装选项… 3 4：软件选项… 4 5：安…

1天前

算法结构

HDFS读写数据流程、NameNode与DataNode工作机制

文章目录 HDFS 写数据流程 HDFS 读数据流程 HDFS 节点距离计算 HDFS 机架感知 HDFS NN和2NN工作机制 HDFS FsImage镜像文件 HDFS Edi…

1天前

大数据

Hive数据存储格式有哪些？TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别？为什么绝大多数都使用ORCFile、Parquet格式？

Hive数据存储格式有哪些？TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别？为什么绝大多数都使用ORCFile、Parquet格…

1天前

大数据

虚拟机上搭建Hadoop运行环境

文章目录 Hadoop环境搭建 1.安装VMware 2.centos软硬件安装 2.1硬件部分 2.2软件部分 3.主机IP和名称配置 3.1 IP配置 3.2主机名配置 4.测…

1天前

大数据

【SparkSQL】基础入门（重点：SparkSQL和Hive的异同、SparkSQL数据抽象）

【大家好，我是爱干饭的猿，本文重点介绍Spark SQL的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。后续会继续分享其他重要知识点总结，如果喜…

1天前