spark scala Apriori-白红宇

spark scala Apriori

阅读量：3560 次

发布时间：2019-05-20

本文共 1200 字，大约阅读时间需要 4 分钟。

val mydata = Array(Array(1,3,4,5),Array(2,3,5),Array(1,2,3,4,5),Array(2,3,4,5))val pamydata = sc.parallelize(mydata)val C1 = pamydata.flatMap(_.toSet).distinct().collect().map(Set(_))val D = mydata.map(_.toSet)val D_bc = sc.broadcast(D)val length = mydata.lengthvar limit = 0.70def f1(a:Set[Int],B:Array[Set[Int]],length:Int,limit:Double) = {if(B.filter(b => a.subsetOf(b)).size/length.toDouble >= limit)(a,B.filter(b => a.subsetOf(b)).size/length.toDouble)}var suppdata = sc.parallelize(C1).map(f1(_,D_bc.value,4,limit)).filter(_.!=(())).collect()var L = Array[Array[Set[Int]]]()val L1 = suppdata.map(_ match{case a:Tuple2[_,_] => a._1 match{ case b:Set[_] => b.asInstanceOf[Set[Int]]}})L = L :+ L1var k=2while(L(k-2).length>0){var CK = Array[Set[Int]]()for((var1,index) <- L(k-2).zipWithIndex;var2 <- L(k-2).drop(index+1) if var1.take(k-2).equals(var2.take(k-2))){CK= CK :+ (var1|var2)}val suppdata_temp = sc.parallelize(CK).map(f1(_,D_bc.value,4,limit)).filter(_.!=(())).collect()suppdata = suppdata :+ suppdata_tempL = L :+ suppdata_temp.map(_ match{case a:Tuple2[_,_] => a._1 match{ case b:Set[_] => b.asInstanceOf[Set[Int]]}})k += 1}L = L.filter(_.nonEmpty)Lsuppdata

这里只写了挖掘频繁项集，发现关联规则的代码可以参考来写

转载地址：http://imnrj.baihongyu.com/

你可能感兴趣的文章

Spring实现AOP的三种方式

查看>>

Mybatis-Spring简单的配置和使用，配置事务

查看>>

SpringMVC和Mybatis整合使用的配置文件

查看>>

将字符串 “k:1|k1:2|k2:3|k3:4” 转换成字典{“k”:1,”k1”:2,”k2”:3,”k3”:4}

查看>>

AttributeError: 'tuple' object has no attribute 'decode'