且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

海量数据处理之蓄水池抽样算法

更新时间:2022-08-22 22:58:48

一、问题由来

      这个题目的由来是在《编程珠玑》里遇到的故记录一下。还可以这么说”如何从二进制文件中等概率取整数”或者”在不知道文件总行数的情况下如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是一个二进制文件中有好多好多整数你要随机取出一个。

      这个问题的难点就在于你开始不知道有多少的整数也就是说这个1/n你不知道n是多少。   

      综上随机抽样问题表示如下要求从N个元素中随机的抽取k个元素其中N无法确定。

      这种应用的场景一般是数据流的情况下由于数据只能被读取一次而且数据量很大并不能全部保存因此数据量N是无法在抽样开始时确定的但又要保持随机性于是有了这个问题。所以搜索网站有时候会问这样的问题。

      这里的核心问题就是“随机”怎么才能是随机的抽取元素呢我们设想买彩票的时候由于所有彩票的中奖概率都是一样的所以我们才是“随机的”买彩票。那么要使抽取数据也随机必须使每一个数据被抽样出来的概率都一样。

二、算法实现

 

array R[k];    // result
 integer i, j;
 

 for each i in 1 to k do
     R[i] := S[i]
 done;
 
 for each i in k+1 to length(S) do
     j := random(1, i);   // important: inclusive range
     if j <= k then
        R[j] := S[i]
     fi
 done