TopK问题的必会解法

1天前 • 算法结构

目录

- 经典解法，创建K个大小的堆
- 不考虑空间的暴力排序做法
- 不考虑空间的快排partition变形减治法思想(核心：找第K大的数)
- 空间有限放不下，海量数据的分治法

经典解法，创建K个大小的堆

传统的直接建立一个K个元素的小顶堆，类似堆排序的思想，然后将剩下的n-k个元素依次和堆顶元素比较，如果大于堆顶，就替换掉堆顶，然后向下调整到合适的位置，以此类推，最后这个堆中剩下的K个元素就是topK元素; 时间O (n logk) 空间O(k) ;相对来说是比较优的;

不考虑空间的暴力排序做法

归并等排序…时间O(NlogN) O(N)
时间上更优O(N): 类似于计数排序的映射思想，直接创建一个存的下所有int数字的数组，全按照原数据下标的index位置映射存进一个数组，出现一次数组的内容cnt++一次，之后从数组的末尾开始，从后往前遍历(topK)出来k个数字即可; 时间O(n)空间O(n); 是更快了一点哈; 但是这样有点太暴力了…

不考虑空间的快排partition变形减治法思想(核心：找第K大的数)

这里的减治法与分治法的区别(抽象举例):

处理元素以这个序列为例：111 2 333

分治法: 假设以2为基准，我们把序列分为了111 和 333两部分，进而对这两部分继续按照一定的规则分治处理;
减治法：假设以2为基准，我们找的是第3大的数，那么111直接被丢弃，我们只需要对333进一步减治处理即可，与分治法比较，省去了对排除部分进行分支处理的开销！

思路:

找到第K大的数字（借助快排的partion思想返回的pos区分左右两个侧大小的下标和二分的减治思想！注意:有重复也不影响哦; 前k大的数字可以有多个一样的呀！）
然后再利用这个数字进行一次快排的partition，通过返回的下标，区分左右两侧，就能确定topK的数字了;

注意下图是找到第K小的数字(第k大还是小，取决于我们partition左侧方的是>=基准值得数还是<=基准值的数)

在这里插入图片描述

找到第K大的数字以后; 进行一次partion，>=他的放在右边，那么右边就是前K大的了;

(同理，前k小，就找第k小，一次partion左边都是<= 的前k小了)

我们只在一段序列中partion出对应第k大的数字位置的下标即可，其他淘汰的字段不用再partion了，这种方法就避免了对除了Top K个元素以外的数据进行排序所带来的不必要的开销。

空间有限放不下，海量数据的分治法

将全部数据等分成N份，（N份前提是每份的数据都可以读到内存中进行处理），找到每份数据中最大的K个数;

再把这一共：N*K个（N份*每份的K个）的数据放入内存处理，可以用快排变形或者归并排序等;

（注意：如果N*K个如果又放不下，那么以此类推，继续分治，拿N*K个数据等分成每份M份（M份前提是放的进内存的粒度），再找topK，再把M*K个合起来放入内存用快排变形或者排序处理，以此类推;

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://net2asp.com/938b1c3014.html

java 数据结构算法

赞 (0)

算法精品讲解(2)——DP问题入门（适合零基础者，一看就会）

« 上一篇 1天前

【数据结构】带你深度理解队列

下一篇 » 1天前

大数据

操作系统-01-Mac 苹果操作系统 Brew /端口占用

Brew brew 又叫 Homebrew，是 Mac OSX上的软件包管理工具。类似 ubuntu 中的 apt-get。 Install $ /usr/bin/ruby -e …

1天前
大数据

Mac如何设置一位数密码？

一、问题 Mac如何设置一位数密码？二、解答 1、打开终端 2、清除全局账户策略 sudo pwpolicy -clearaccountpolicies 输入开机…

1天前
大数据

幻兽帕鲁能在Mac上运行吗？幻兽帕鲁Palworld新手攻略

幻兽帕鲁能在Mac上运行吗？《幻兽帕鲁》目前还未正式登陆Mac平台，不过通过一些方法是可以让游戏在该平台运行的。虽然游戏不能在最高配置下运行，但如果你安装了CrossOver这…

1天前
vue登陆修改密码等加密（禁止明文传输）

1.下载加密插件,终端运行 yarn add jsencrypt 2.配置加密信息文件rsaEncrypt.js放到utils中，代码如下 import JSEncrypt fro…

大数据 1天前
大数据

【IM】长连接网关设计探索（一）

目录 1.长连接网关的必要性 2. 设计目标 2.1 技术挑战 2.2 技术目标 3. 方案选型 3.1 网关IP地址的选择 3.1.1 使用httpDNS服务 3.1.2 自建h…

1天前
大数据

vue核心知识点

一、Vue基础知识点总结开发vue项目的模式有两种：基于vue.js，在html中引入vue.js，让vue.js管理div#app元素。基于脚手架环境：通过vue脚手架环境…

1天前
API横向越权修复之ID加密

横向越权横向越权一般发生在应用系统做了【认证】，但没有做【鉴权】的情况下，也是最常见的漏洞之一。认证：即识别是否有权限访问系统；鉴权：即识别在系统中的权限是什么；例如： /…

大数据 1天前
大数据

用Python库pillow处理图像

入门知识颜色。如果你有使用颜料画画的经历，那么一定知道混合红、黄、蓝三种颜料可以得到其他的颜色，事实上这三种颜色就是美术中的三原色，它们是不能再分解的基本颜色。在计算机中，我们可…

1天前
大数据

生成式学习，特别是生成对抗网络（GANs），存在哪些优点和缺点，在使用时需要注意哪些注意事项?

生成对抗网络（GANs） 1. 生成对抗网络（GANs）的优点： 2. 生成对抗网络（GANs）的缺点： 3. 使用生成对抗网络（GANs）需要注意的问题 1. 生成对抗网络（GA…

1天前
mac上，配置bundletool，将aab转为apk

1.第一步打开终端，安装brew 2.安装bundletool brew install bundletool 3.aab转apk bundletool build-apks –…

大数据 1天前