读代码-MinHashDriver及相关

linest

浏览: 150785 次
性别:
来自: 内蒙古

最近访客更多访客>>

cnspary

给我用用

和平共处

l00o00l

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mahout

用到：泛型类 counter 哈希实现

package org.apache.mahout.clustering.minhash;
public final class MinHashDriver extends AbstractJob

输入Sequence格式
输出根据debug模式可选向量和文本格式，文件可以Sequence和Text格式

    Class<? extends Writable> outputClass = 
        debugOutput ? VectorWritable.class : Text.class;
    Class<? extends OutputFormat> outputFormatClass = 
        debugOutput ? SequenceFileOutputFormat.class : TextOutputFormat.class;

    job.setMapperClass(MinHashMapper.class);
    job.setReducerClass(MinHashReducer.class);

    job.setInputFormatClass(SequenceFileInputFormat.class);
    job.setOutputFormatClass(outputFormatClass);

    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(outputClass);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(outputClass);

package org.apache.mahout.clustering.minhash;
public class MinHashMapper extends Mapper<Text,VectorWritable,Text,Writable>

setup函数中
根据类型和数量生成hash函数组

hashFunction = HashFactory.createHashFunctions(hashType, numHashFunctions);

map函数
对于每个哈希函数
将函数应用于item的每个feature,将feature值转成4字节,取最小的哈希值

    for (int i = 0; i < numHashFunctions; i++) {
      for (Vector.Element ele : featureVector) {
        int value = (int) ele.get();
        bytesToHash[0] = (byte) (value >> 24);
        bytesToHash[1] = (byte) (value >> 16);
        bytesToHash[2] = (byte) (value >> 8);
        bytesToHash[3] = (byte) value;
        int hashIndex = hashFunction[i].hash(bytesToHash);
        if (minHashValues[i] > hashIndex) {
          minHashValues[i] = hashIndex;
        }
      }
    }

聚类id的组合和分发
keyGroups控制id的组成段数
格式为XXX-XXX-XXX格式
每个item对每个哈希函数都分发一次

    for (int i = 0; i < numHashFunctions; i++) {
      StringBuilder clusterIdBuilder = new StringBuilder();
      for (int j = 0; j < keyGroups; j++) {
        clusterIdBuilder.append(minHashValues[(i + j) % numHashFunctions]).append('-');
      }
      String clusterId = clusterIdBuilder.toString();
      clusterId = clusterId.substring(0, clusterId.lastIndexOf('-'));
      Text cluster = new Text(clusterId);
      Writable point;
      if (debugOutput) {
        point = new VectorWritable(featureVector.clone());
      } else {
        point = new Text(item.toString());
      }
      context.write(cluster, point);
    }

package org.apache.mahout.clustering.minhash;
public class MinHashReducer extends Reducer<Text,Writable,Text,Writable>

reduce函数
根据debug类型解析不同类型

    Collection<Writable> pointList = new ArrayList<Writable>();
    for (Writable point : points) {
      if (debugOutput) {
        Vector pointVector = ((VectorWritable) point).get().clone();
        Writable writablePointVector = new VectorWritable(pointVector);
        pointList.add(writablePointVector);
      } else {
        Writable pointText = new Text(point.toString());
        pointList.add(pointText);
      }
    }

counter使用,参数是enum类型
数量小于最小聚类数的被舍弃掉

    if (pointList.size() >= minClusterSize) {
      context.getCounter(Clusters.ACCEPTED).increment(1);
      for (Writable point : pointList) {
        context.write(cluster, point);
      }
    } else {
      context.getCounter(Clusters.DISCARDED).increment(1);
    }

package org.apache.mahout.clustering.minhash;
public final class HashFactory
哈希的实现

三种哈希类型

  public enum HashType {
    LINEAR, POLYNOMIAL, MURMUR
  }

孪生素数，相差为2的两个数都是质数的情况
整型范围内最大孪生素数的较小值
RandomUtils.MAX_INT_SMALLER_TWIN_PRIME = 2147482949
哈希用素数取模冲突小

线性哈希

  static class LinearHash implements HashFunction {
    private final int seedA;
    private final int seedB;

    LinearHash(int seedA, int seedB) {
      this.seedA = seedA;
      this.seedB = seedB;
    }

    @Override
    public int hash(byte[] bytes) {
      long hashValue = 31;
      for (long byteVal : bytes) {
        hashValue *= seedA * byteVal;
        hashValue += seedB;
      }
      return Math.abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));
    }
  }

多项式哈希

  static class PolynomialHash implements HashFunction {
    private final int seedA;
    private final int seedB;
    private final int seedC;

    PolynomialHash(int seedA, int seedB, int seedC) {
      this.seedA = seedA;
      this.seedB = seedB;
      this.seedC = seedC;
    }

    @Override
    public int hash(byte[] bytes) {
      long hashValue = 31;
      for (long byteVal : bytes) {
        hashValue *= seedA * (byteVal >> 4);
        hashValue += seedB * byteVal + seedC;
      }
      return Math
          .abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));
    }
  }

MurMur哈希

  static class MurmurHashWrapper implements HashFunction {
    private final int seed;

    MurmurHashWrapper(int seed) {
      this.seed = seed;
    }

    @Override
    public int hash(byte[] bytes) {
      long hashValue = MurmurHash.hash64A(bytes, seed);
      return Math.abs((int) (hashValue % RandomUtils.MAX_INT_SMALLER_TWIN_PRIME));
    }
  }

分享到：

读代码-BayesFileFormatter | ToolRunner机制

2012-01-26 14:17
浏览 1297
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

毕业设计基于STC12C5A、SIM800C、GPS的汽车防盗报警系统源码.zip: STC12C5A通过GPS模块获取当前定位信息，如果车辆发生异常震动或车主打来电话（主动请求定位），将通过GSM发送一条定位短信到车主手机，车主点击链接默认打开网页版定位，如果有安装高德地图APP将在APP中打开并展示汽车当前位置 GPS模块可以使用多家的GPS模块，需要注意的是，当前程序对应的是GPS北斗双模芯片，故只解析 GNRMC数据，如果你使用GPS芯片则应改为GPRMC数据即可。系统在初始化的时候会持续短鸣，每初始化成功一部分后将长鸣一声，如果持续短鸣很久（超过20分钟），建议通过串口助手查看系统输出的调试信息，系统串口默认输出从初始化开始的所有运行状态信息。不过更建议你使用SIM868模块，集成GPS.GSM.GPRS，使用更加方便

基于tensorflow2.x卷积神经网络字符型验证码识别.zip: 基于tensorflow2.x卷积神经网络字符型验证码识别卷积神经网络（Convolutional Neural Networks, CNNs 或 ConvNets）是一类深度神经网络，特别擅长处理图像相关的机器学习和深度学习任务。它们的名称来源于网络中使用了一种叫做卷积的数学运算。以下是卷积神经网络的一些关键组件和特性：卷积层（Convolutional Layer）：卷积层是CNN的核心组件。它们通过一组可学习的滤波器（或称为卷积核、卷积器）在输入图像（或上一层的输出特征图）上滑动来工作。滤波器和图像之间的卷积操作生成输出特征图，该特征图反映了滤波器所捕捉的局部图像特性（如边缘、角点等）。通过使用多个滤波器，卷积层可以提取输入图像中的多种特征。激活函数（Activation Function）：在卷积操作之后，通常会应用一个激活函数（如ReLU、Sigmoid或tanh）来增加网络的非线性。池化层（Pooling Layer）：池化层通常位于卷积层之后，用于降低特征图的维度（空间尺寸），减少计算量和参数数量，同时保持特征的空间层次结构。常见的池化操作包括最大池化（Max Pooling）和平均池化（Average Pooling）。全连接层（Fully Connected Layer）：在CNN的末端，通常会有几层全连接层（也称为密集层或线性层）。这些层中的每个神经元都与前一层的所有神经元连接。全连接层通常用于对提取的特征进行分类或回归。训练过程： CNN的训练过程与其他深度学习模型类似，通过反向传播算法和梯度下降（或其变种）来优化网络参数（如滤波器权重和偏置）。训练数据通常被分为多个批次（mini-batches），并在每个批次上迭代更新网络参数。应用： CNN在计算机视觉领域有着广泛的应用，包括图像分类、目标检测、图像分割、人脸识别等。它们也已被扩展到处理其他类型的数据，如文本（通过卷积一维序列）和音频（通过卷积时间序列）。随着深度学习技术的发展，卷积神经网络的结构和设计也在不断演变，出现了许多新的变体和改进，如残差网络（ResNet）、深度卷积生成对抗网络（DCGAN）等。

【三维装箱】遗传和模拟退火算法求解三维装箱优化问题【含Matlab源码 031期】.zip: 【三维装箱】遗传和模拟退火算法求解三维装箱优化问题【含Matlab源码 031期】.zip

自己编写的python 程序计算cpk/ppk: cpk&ppk python 小程序,品友点评

基于Springboot开发的分布式抽奖系统.zip: 基于springboot的java毕业&课程设计

课设毕设基于SpringBoot+Vue的影城管理系统 LW+PPT+源码可运行.zip: 课设毕设基于SpringBoot+Vue的影城管理系统 LW+PPT+源码可运行.zip

MC教育版（免登录版）: MC教育版（免登录版）

农作物叶片病害分类和分割数据集【数据集+标签】: 包含13993张数据和对应的13993张mask分割模版，数据集用不同目录保存，也可以用作分类数据集类别包含：桃子、辣椒、覆盆子、大豆、南瓜、草莓

基于vue+springboot二手交易网站.zip: 基于springboot的java毕业&课程设计

【三维装箱】遗传算法求解三维装箱优化问题【含Matlab源码 3408期】.zip: 【三维装箱】遗传算法求解三维装箱优化问题【含Matlab源码 3408期】.zip

基于javaspring 开发框架的培训教程 TP1.zip: 基于javaspring 开发框架的培训教程 TP1.zip

信号和系统 MATLAB 代码：探索信号生成、系统建模、傅立叶分析、滤波器设计、采样和控制系统仿真.zip: 1.版本：matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

医院网上预约系统设计与开发/毕业设计: 医院网上预约系统设计与开发/毕业设计 JSP基于SSM网上医院预约挂号系统科室信息: 科室id,科室名称,科室介绍,成立日期,负责人医生信息: 医生工号,登录密码,所在科室,医生姓名,性别,医生照片,出生日期,医生职位,工作经验,联系方式,擅长,医生介绍病人信息: 病人id,医生,病人姓名,性别,身份证号,联系电话,病人病例,登记时间预约信息: 预约id,预约用户,预约医生,预约日期,时段,联系电话,下单时间,处理状态,医生回复新闻信息: 新闻id,新闻标题,新闻图片,新闻内容,新闻日期,新闻来源留言: 留言id,留言标题,留言内容,留言人,留言时间,管理回复,回复时间用户: 用户名,登录密码,姓名,性别,出生日期,用户照片,联系电话,邮箱,家庭地址,注册时间

企业数据治理之数据质量治理方案.pptx: 企业数据治理之数据质量治理方案

MySQL8.4.0 LTS（mysql-8.4.0-10.fc38.x86-64.rpm-bundle.tar）: MySQL8.4.0 LTS（mysql-8.4.0-10.fc38.x86_64.rpm-bundle.tar）适用于Linux Fedora 38 (x86, 64-bit)

1659 jsp游乐园管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目源码: 一、源码特点 java 医疗数据管理系统是一套完善的web设计系统，对理解JSP java编程开发语言有帮助采用了数据模型进行区块链设计，系统具有完整的源代码和数据库，系统采用web模式，系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发，数据库为Mysql，使用java语言开发。二、功能介绍如博客中介绍三、注意事项 1、管理员账号：admin 密码：admin 数据库配置文件DBO.java ，权限包括管理员，用户 2、开发环境为TOMCAT7.0,Myeclipse8.5开发，数据库为Mysql，使用java语言开发。 3、数据库文件名是jspyly 系统名称yly 4、地址：http://127.0.0.1:8080/yly/qt/index.jsp

基于SpringBoot 搭建的番茄短视频-后台管理系统.zip: 基于springboot的java毕业&课程设计

54.医院分诊管理系统的设计与实现-基于SSM框架+ Mysql+Java设计与实现(可运行源码+数据库+lw)毕业设计管理系统: 可运行源码（含数据库脚本）+开发文档+lw（高分毕设项目） java期末大作业毕业设计项目管理系统计算机软件工程大数据专业内容概要：通过陆丰市医院门诊分诊系统设计的研究背景、研究的意义和目的，通过运用java语言和ssm框架来建立一款分诊管理系统，能够帮助医院提高工作效率，减少工作中出现的错误率。设计出挂号管理、排队候诊管理以及叫号管理等多个子模块，绘制出实体关系图，利用MySQL技术建立数据库达成了软件与数据库的互通。最后对工作进行了总结和展望。关键词：分诊管理系统；功能建模；java 全套项目源码+详尽文档，一站式解决您的学习与项目需求。适用人群：计算机、通信、人工智能、自动化等专业的学生、老师及从业者。使用场景及目标：无论是毕设、期末大作业还是课程设计，一键下载，轻松部署，助您轻松完成项目。项目代码经过调试测试，确保直接运行，节省您的时间和精力。其他说明：项目整体具有较高的学习借鉴价值，基础能力强的可以在此基础上修改调整，以实现不同的功能。

基于Springboot和SpringCloud的博客.zip: 基于springboot的java毕业&课程设计

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论