您现在的位置: 首页 > 技术转让 > 基于分布熵的局部敏感哈希高维索引方法
基于分布熵的局部敏感哈希高维索引方法

基于分布熵的局部敏感哈希高维索引方法

  • 专利类型:发明专利
  • 有效期:不限
  • 发布日期:2021-07-15
  • 技术成熟度:详情咨询
交易价格: ¥面议
  • 法律状态核实
  • 签署交易协议
  • 代办官方过户
  • 交易成功

专利推荐

  • 技术(专利)类型 发明专利
  • 申请号/专利号 CN201110443604.X 
  • 技术(专利)名称 基于分布熵的局部敏感哈希高维索引方法 
  • 项目单位 中国科学院计算技术研究所
  • 发明人 张伟;高科;张勇东;李锦涛 
  • 行业类别 物理
  • 技术成熟度 详情咨询
  • 交易价格 ¥面议
  • 联系人 李志文
  • 发布时间 2021-07-15  
  • 01

    项目简介

    本发明提供了基于分布熵的局部敏感哈希高维索引方法。该方法首先生成局部敏感哈希函数候选集合。接着,根据训练数据集,计算局部敏感哈希函数候选集合中每个哈希函数的分布熵值,并从中选取分布熵值最高的L个哈希函数作为局部敏感哈希函数集合。然后,基于该局部敏感哈希函数集合,将待索引数据集存储到哈希表中。还可以采用基于三角不等式过滤和欧氏距离排序的查询算法查询上述哈希表,得到与查询数据相似的结果集。该方法通过选择分布熵值高的哈希函数,更好地适应了数据的分布,从而优化了哈希表索引结构,减小了索引的内存消耗,同时使得查询更加准确和高效。
    展开
  • 02

    说明书


    1.一种局部敏感哈希高维索引方法,所述方法包括:步骤1)生成局部敏感哈希函数候选集合;步骤2)根据训练数据集,计算局部敏感哈希函数候选集合中每个哈希函数的分布熵值,并从中选取分布熵值最高的L个哈希函数作为局部敏感哈希函数集合;步骤3)基于该局部敏感哈希函数集合,将待索引数据集存储到哈希表中。
    2.根据权利要求1所述的方法,在所述步骤1)中局部敏感哈希函数候选集合中包括L’个哈希函数gi(x),其中gi(x)=[hi1(x),...hij(x),...hik(x)],(1≤i≤L′,1≤j≤k),x为d维数据,d为大于2的整数。
    3.根据权利要求2所述的方法,所述步骤2)包括以下步骤:步骤21)依据局部敏感哈希函数候选集合中每个哈希函数gi(x)执行如下操作:211)为训练数据集建立一个哈希表,具有相同哈希值的数据被存储到该哈希表的同一表项中,而具有不同哈希值的数据被存储到该哈希表的不同表项中;212)统计该哈希表中不为空的表项的个数m,以及表项r中存储的数据的个数Nr(1≤r≤m);213)计算哈希函数gi(x)的分布熵 E g i ( x ) = - Σ r = 1 m N r Σ r = 1 m N r * log ( N r Σ r = 1 m N r ) ]]> 步骤22)从局部敏感哈希函数候选集合中选取分布熵值最高的L个哈希函数作为局部敏感哈希函数集合。
    4.根据权利要求2或3所述的方法,所述步骤3)包括以下步骤:步骤31)建立L个空哈希表,每个哈希表对应于局部敏感哈希函数集合中的一个哈希函数;步骤32)采用局部敏感哈希函数集合中的每个哈希函数执行下列操作:采用该哈希函数计算待索引的数据集中每个数据的哈希值,具有相同哈希值的数据将被存储到该哈希函数对应的哈希表的同一表项中,不同哈希值的将被存储到该哈希函数对应的哈希表的不同表项中。
    5.根据权利要求2或3所述的索引方法,所述步骤3)包括以下步骤:步骤31)建立L个大小为tableSize的空哈希表{Table1,...TableL};步骤32)对于待索引数据集中每个数据x,采用Qgi(x)计算该数据x的哈希值,将x存储到Tablei的第Qgi(x)个表项的链表中,其中Qgi(x)为: Q gi ( x ) = ( ( Σ j = 1 k r j a j ) mod prime ) mod tableSize - - - ( 3 ) ]]> 其中aj(1≤j≤k)是采用gi(x)=[hi1(x),...hik(x)]对数据x计算得到的k维哈希值中第j个哈希值;rj是随机整数,prime是一个素数,取值为232-5。
    6.根据权利要求2或3所述的方法,步骤1)中其中,pij是d维向量,其元素是满足高斯正态分布的随机数;正实数w是一个划分宽度值;bij是[0,w]内的随机数。
    7.一种对采用上述任一权利要求所述的索引方法索引的数据集进行查询的方法,所述方法包括以下步骤:对于每个哈希表Tablei,采用Qgi(q)计算查询数据q的哈希值,从哈希表Tablei中取出该哈希值对应的表项中所存储的数据;将从L个哈希表得到数据组成相似数据的候选集合;计算查询数据和该相似数据的候选集合中的每个候选数据的欧氏距离;根据所计算的欧氏距离取出与该查询数据最接近的n个数据作为该查询数据的近似最近邻数据集合。
    8.根据权利要求7所述的查询方法,还包括以下步骤:设置查询半径R;对所述相似数据的候选集合中每个候选数据,如果其欧氏范数与所述查询数据的欧氏范数的差值的绝对值大于或等于所述查询半径R,则将该候选数据从所述相似数据的候选集合中删除。
    展开

专利技术附图

< >

服务流程

过户资料

  • 买卖双方需提供资料
  • 平台提供
  • 过户后您将获得
  • 买家
  • 卖家
  • 公司
  • 企业营业执照
  • 企业营业执照

    专利注册证原件

  • 个人
  • 身份证

    个体户营业执照

  • 身份证

    专利注册证原件

  • 专利代理委托书

    转让申请书

    转让协议

  • 手续合格通知书

    专利证书

    专利利登记簿副本

安全保障

  • 品类齐全

    海量资源库,平台整合几十万闲置资源。
  • 交易保障

    完善的资金保障体系确保买卖双方资金安全。
  • 专人跟进

    专业交易顾问全程服跟进,确保交易流畅。
  • 快速响应

    专业在线/电话客服服务,快速响应贴心服务。
  • 售后无忧

    资质过硬,国内大知识产权服务平台。

在线客服

在线咨询

010-83278899

返回顶部