GK | Sword's Blog

GK algorithm introduction 在这里，我们研究了一种算法，该算法可以持续维护汇总信息，并且只需要使用通常需要的一小部分内存就能在小的有界误差范围内回答查询。有许多算法可以解决这个问题，但是我们要研究的是 Greenwald 和 Khanna 在他们的 2001 年的论文 “空间高效的在线计算分位数摘要”。比其他许多算法理解起来要复杂得多，但据我所知，它是空间使用最好的。另外，我们稍后将会研究的其他许多论文将用它来解决有趣的问题。 data structure Greenwald-Khanna（GK 从现在开始）基于一个简单的数据结构。S(n) 这种数据结构包括了一系列排过序的元组，这些元组对应了我们迄今以来观察到的数据的一个子集，对于每个观察到的在 S 中的ｖ，我们维护一个 implicit bound 对于观察点的最大可能的 rank 值和最小可能的 rank 值．令 rmin(v) 和 rmax(v) 分别表示ｖ可能的 rank 的上届和下届．S 包括了 t0,t1,…ts-1 个元组，每一个元组（v，g，Δ）包含了三个元素． vi 表示数据流中实际出现的一个值． gi ＝　rmin(vi) - rmin(vi-1). Δ = rmax(vi) - rmin(vi). 这样，我们可以确保，在任何时刻，最大可能和最小可能都在 description 中．换句话说，v0 和 vs-1 一直表示我们看到的数据流中的最大值和最小值．rmin(vi) = sum(gj),where j<=i. rmax(vi) = sum(gj+Δj),where j<=i ，因此, gi + Δi - 1 是所有数字的上届，sum(gi) = n, 表示所有出现的数字的数量和．该算法通过相应的插入和压缩算法，以尽量保持尽可能少的元组，同时始终保持对于任何元组我们有 g +Δ<= 2 ε n 的不变量。只要我们能够牢记这一点，算法总会给出正确的ε- 近似的答案。ε的有效值在很大程度上取决于你想要做什么样的查询。例如，如果你想要第 90 百分位数，那么ε= 0....