spark

大数据

Java接入Apache Spark（入门环境搭建、常见问题）

Java接入Apache Spark（环境搭建、常见问题）背景介绍 Apache Spark 是一个快速的，通用的集群计算系统。它对 Java，Scala，Python 和 R …

1天前

大数据

python-sql-spark常用操作

数据抽取提速： 1. 不要把rdd或者df展示出来，只有第一遍跑流程的时候看看中间结构，后面就只保存不展示。 2. 尽量使用spark.sql，而不是rdd。sql处理groupb…

1天前

Spark在AI与机器学习中的应用

1.背景介绍 1. 背景介绍 Apache Spark是一个开源的大规模数据处理框架，它可以处理批量数据和流式数据，并提供了一个易于使用的编程模型。Spark在AI和机器学习领域的…

大数据 1天前

explode与lateral view使用详解（spark及hive环境对比）

HIVE环境 1.explode 炸裂函数定义：explode函数能够将array及map类型的数据炸开，实现一行变多行格式：select explode(array/map)…

大数据 1天前

大数据

案例系列：客户流失预测

文章目录介绍：使用Spark进行特征工程使用PySpark的Spark 设置Spark 测试Spark Spark 仪表盘数据存储特征工程一个分区的特征自定义基元运行…

1天前

大数据

Spark内容分享(二十六)：Hive SQL 迁移 Spark SQL 在网易传媒的实践

目录引言迁移背景迁移方案设计迁移成果总结引言把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。…

1天前

大数据

Spark与HBase的集成与数据访问

Apache Spark和Apache HBase分别是大数据处理和分布式NoSQL数据库领域的两个重要工具。在本文中，将深入探讨如何在Spark中集成HBase，并演示如何通过S…

1天前

大数据

[PySpark学习]RDD的转换（Transformation）与动作算子（Action）

一、RDD概念 RDD（英文全称Resilient Distributed Dataset），即弹性分布式数据集是spark中引入的一个数据结构，是Spark中最基本的数据抽象，代…

1天前

Apache Spark 练习五：使用Spark进行YouTube视频网站指标分析

一、源数据本章所分析的数据来自于Simon Fraser大学公开的YouTube视频网站的视频数据（https://netsg.cs.sfu.ca/youtubedata/）。数…

大数据 1天前

大数据

StreamPark + PiflowX 打造新一代大数据计算处理平台

🚀 什么是PiflowX PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所…

1天前

大数据

Hadoop 高可用集群完全分布式安装教程一篇就够用（zookeeper、spark、hbase、mysql、hive)

Hadoop 高可用集群完全分布式安装教程一篇就够用（zookeeper、spark、hbase、mysql、hive）写在之前，Hadoop完全分布式集群资源配置规划情况一、…

1天前

大数据

spark初步学习

1.1 下载数据集在此，我们将使用National Health and Nutrition Health Survey数据集。图3-1 National Health and…

1天前

大数据

万字解决Flink|Spark|Hive 数据倾斜

前言此篇主要总结到Hive,Flink,Spark出现数据倾斜的表现，原因和解决办法。首先会让大家认识到不同框架或者计算引擎处理倾斜的方案。最后你会发现计算框架只是“异曲”，文末…

1天前

大数据

基于Spark的医疗保健系统的设计与实现–04022（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

spark医疗保健系统摘要信息化的今天，计算机网络、Internet扮演的角色也越来越重要，其核心的数据库技术正在改变着我国各个领域的管理模式，而作为传统的医院模式也面临着…

1天前

Spark在降本增效中的一些思考

背景在大环境不好的情况下,本司也开始了“降本增效”，本文探讨一下，在这种背景下 Spark怎么做的降本增效。 Yarn 基于 EMR CPU 是xlarge，也就是内存和核的比例…

大数据 1天前