大数据
-
【分布式·大数据】大模型赛道如何实现华丽的弯道超车 —— AI/ML训练赋能解决方案
文章目录 大模型赛道如何实现华丽的弯道超车 —— AI/ML训练赋能解决方案 01 具备对海量小文件的频繁数据访问的 I/O 效率 02 提高 GPU 利用率,降低成本并提高投资回…
-
永洪Bi经验总结
永洪Bi经验总结 永洪Bi简介 永洪Bi的产品种类主要有:1、Z—Suite:运用这款产品企业可以在一个统一的平台上完成全流程数据分析任务,极大降低了实施、集成、培训的成本;2…
-
flink1.17部署模式和部署方法
文章目录 前言 一、部署模式 1.会话模式(Session Mode) 2.单作业模式(Per-Job Mode) 3.应用模式(Application Mode) 二、运行模式 …
-
Spark五:Spark的两种核心Shuffle
Shuffle 在MapReduce框架中,Shuffle阶段是链接Map和Reduce之间的桥梁,Map阶段通过Shuffle过程将数据输出到Reduce阶段中。由于 Shuff…
-
12款开源数据资产(元数据)管理平台选型分析(一)
两年前,在文章最全大数据开源组件思维导图中,整理了大数据生态的开源技术组件思维导图,至今有4K的下载量。 尽管数据行业的新词热度,由大数据平台->数据治理->数据中台-…
-
【hadoop】hbase的安装部署以及相关操作(图文详解)
文章目录 引言 1、准备环节 1.1设备基本要求 1.2安装包 2、修改相关信息 2.1修改ip 2.2修改ip映射 3、安装与部署 3.1.上传安装包 3.2.解压安装包 3…
-
编译 Flink代码
构建环境 JDK1.8以上和Maven 3.3.x可以构建Flink,但是不能正确地遮盖某些依赖项。Maven 3.2.5会正确创建库。所以这里使用为了减少问题选择 Maven3….
-
阿里云-DataWorks- ODPS SQL开发
1、前言 阿里云 数据仓库这一系列断断续续也有很久没有更新了,新年新气象,赶紧追上开写。 2、基本概念 1、ODPS: Open Data Processing Service, …
-
数据挖掘笔记1
课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili 一、Learning Resources 二、Data 数据是最底层的一种表现形式。 数据具有连续…
-
山海鲸可视化:实时渲染3D场景,提升数据分析的深度与广度
在数据可视化的前沿领域,3D场景的实时渲染已成为提升用户体验与洞察力的关键。作为山海鲸可视化软件的开发者,在提供免费编辑、部署的可视化产品同时,我们也致力于为用户提供卓越的3D可视…
-
Elasticsearch简介
Elasticsearch 是一个开源的、基于 Lucene 的分布式搜索和分析引擎,设计用于云计算环境中,能够实现实时的、可扩展的搜索、分析和探索全文和结构化数据。它具有高度的可…
-
数据中台的护城河,基于Flink实时构建数据仓
hello宝子们…我们是艾斯视觉擅长ui设计和前端开发10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 数据中台的护城河:基于…
-
i春秋首届全国数据安全大赛部分复盘
2022年10月25日,为期两日的数据安全大赛于i春秋平台线上举行,在王队长的领队下,团队三个屁民开始了有趣的解题之旅。 题目分为四个类型,分别是“安全知识”、“数据分析”、“数据…
-
【flink番外篇】11、Flink 并行度设置
Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。…
-
一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS
一、目的 经过6个月的奋斗,项目的离线数仓部分终于可以上线了,因此整理一下离线数仓的整个流程,既是大家提供一个案例经验,也是对自己近半年的工作进行一个总结。 二、项目背景 项目行业…
