写在前面:在数据挖掘领域中,隐私保护问题是普遍存在且难以根除。为此,学者们提出一个新的研究领域 privacy-preserving data mining (PPDM),通过修改源数据库,降低隐私信息在衡量标准中的真实值是其中一种解决办法。另一方面,高效用项集挖掘(high-utility itemset mining,HUIM)在近些年也取得充分的发展。这为研究 PPDM 提供了一种捷径,学者们提出一个子领域 privacy-preserving utility mining (PPUM) ,本文要介绍的算法对当前 PPUM 领域存在的精度问题而提出了一些改进方案。 ———— By Suarne
A novel algorithm for privacy preserving utility mining based on integer linear programming
动机
当前的 PPUM 算法在处理隐私信息过程中,仅仅通过降低隐私信息的效用值所带来的精度其实是不够的,也就是说,仍然存在不少隐私信息是能被挖掘。当前这些算法采用启发式思想,试图将敏感信息从数据库中直接删除或者降低其某个数值为 0。这样得到的结果只是局部最优,从整体上来看并没有达成很好的开支平衡,并且会进一步干扰到其它非敏感信息的真实值,从而降低了整体挖掘结果的可靠性
定义
效用值(utility)相关定义可以参考 HUI-Miner 和 EFIM 等笔记,本文仅作补充
整数线性规划(integer linear programming ):在一组线性约束条件的限制下,且所有涉及变量均为整数,求一线性目标函数最大或最小的问题
敏感高效用项集(sensitive high-utility itemset,SHUI):用户给定的特殊项集,作为本算法的输入参数 $I_S$,用 $s_i$ 表示其组成元素
敏感高效用项集表(SHI-table):用来记录哪些交易项集包含这些敏感高效用项集,由一个至多个元组(<$s_i$, $TIDs$>,$s_i \leftarrow {T_j \mid s_i \subseteq T_j \land T_j \in \mathcal{D}}$)构成的列表,其中 $TIDs$ 是一个由交易项集构成的集合
非敏感高效用项集(non-sensitive high-utility itemset,NSHUI):在所有的高效用项集中,与敏感项集集合互相对立的自然是非敏感高效用项集集合 $I_N$,用 $n_i$ 表示其组成元素
非敏感高效用项集表(NHI-table):用来记录哪些交易项集包含这些非敏感高效用项集,由一个至多个元组(<$n_i$, $TIDs$>,$n_i \leftarrow {T_j \mid n_i \subseteq T_j \land T_j \in \mathcal{D}}$)构成的列表,其中 $TIDs$ 是一个由交易项集构成的集合
理想状况下,隐藏 $I_S$ 与计算 $I_N$ 相互独立。实际上,存在项集 ${AB} \in I_S$ 但 ${A},{B} \in I_N$ 这类情况,所以,在隐藏 $I_S$ 的过程中,必然会干扰到对 $I_N$ 的计算。为此,作者提出一系列概念来尽可能准确地衡量算法的运行效果:
Ps. 这里给出一份符号解释表格,用以辅助后文的理解
隐匿失效(hiding failure):在修改后的数据库 $D^\prime$ 中,原本是 $I_S$ 中的元素仍然可以作为 HUIs 被挖掘,用 $\alpha$ = $\frac{\mid IS \cap I{H}^{\prime} \mid}{\mid I_S \mid}$ 表示本不应该存在 $D^\prime$ 中 $s_i$ 在 $I_S$ 的占比情况
丢失成本(missing cost):在源数据库 $\mathcal{D}$ 中是非敏感高效用项集,但由于对 $I_S$ 的处理,导致其效用值在修改后的数据库 $\mathcal{D}^\prime$ 中降低以至于变成低效用项集,使用 $\beta$ = $\frac{\mid I_N - IN \cap I{H}^{\prime}}{\mid I_N \mid}$ 表示在 $\mathcal{D}^\prime$ 中成为低效用项集在 $I_N$ 的占比情况
人为成本(artificial cost):在源数据库 $\mathcal{D}$ 中是非敏感低效用项集,但由于对 $IS$ 的处理变成了新的高效用项集,使用 $\gamma$ = $\frac{\mid I{H}^{\prime} - IN \cap I{H}^{\prime} \mid}{\mid I_N \mid}$ 表示在 $\mathcal{D}^\prime$ 中成为新的非敏感高效用项集在 $I_N$ 中的占比情况
下图提供了 hiding failure,missing cost 和 artificial cost 三者之间的关系,理想状况下,$IN$ = $I{H}^{\prime}$ 即 $\alpha$ = $\beta$ = $\gamma$ = 0
在 $I_H$ 中,$\mid I_N \mid$ 必然是远远大于 $\mid I_S \mid$,为了能够减轻后续处理的成本,该算法对 $I_N$ 有一个预处理过程,涉及到的定义如下:
过滤机制(filter mechanism):设 $g(X)$ = ${T_j \mid X \subseteq T_j \land T_j \in \mathcal{D}}$,在源数据库 $\mathcal{D}$ 得到 $I_S$ 和 $I_N$,对于 $\forall n_i \in I_N$,当其满足以下任意一个条件则不能从 $I_N$ 中被过滤:
使用这两个条件来确保处理涉及到的项集必然与 $IS$ 有关联,作者将过滤后得到的 NHI-table 重新命名为 $I{N}^{\prime}$ 以作区别。(Ps. 个人人为这个条件仍是过于宽泛,比如每条交易项集特别地长,抑或项太少?不过作者在文中也指明数据库本身的特征对算法运行效率影响很大)
$n_i \cap s_i \not= \emptyset$
$g(n_i) \cap g(s_i) \not= \emptyset$
由于效用值计算本身涉及多方面,显而易见的是,在处理数据库的过程中非敏感高效用项集必然会出现一些信息丢失的情况(如效用值降低)。因此,有必要将这些关键项集找出来,提前处理,尽可能减少对后续处理的干扰程度
高效用闭包项集(high-utility closed itemset,HUCI):给定一个高效用项集 $X$,当其任意超集 $Y$ (不一定是高效用项集)都有 $g(X) \not= g(Y)$,那么可以认为该项集是闭包的
必然丢失项集(bound-to-lose itemset):给定 $IS$ 和 $I{N}^{\prime}$,对 $\forall n{i}^{\prime} \in I{N}^{\prime}$,不存在 $si$ 能够还原 $n{i}^{\prime}$,那么 $n_{i}^{\prime}$ 必然会在处理过程中丢失(低效用)。因为如果项集 $X$ 不闭包于 $Y$,那么必然有 $u(X) < u(Y)$($g(X) = g(Y)$ 且 $Y$ 比 $X$ 长),证明过程详见论文
以上处理过程通过扫描 NHI-table 即可实现,作者将删除掉必然丢失项集后的 NHI-table 重新命名为 $I{N}^{\prime\prime}$ 以作区别。至此,$I{N}^{\prime\prime}$ 中的剩余项集和 $IS$ 是高度关联的。为了进一步精简 NHI-table 大小,再次使用闭包思路,对 $I{N}^{\prime\prime}$ 中的元素进行处理,即如果项集 $n{i}^{\prime\prime}$ 不闭包于 $n{j}^{\prime\prime}$,那么 $n{j}^{\prime\prime}$ 是可以从 $I{N}^{\prime\prime}$ 中安全地删除
精简高效用项集(restricted high-utility itemset,RHUI):$I_{N}^{\prime\prime}$ 中的元素,用 $I_R$ 表示。通过以上定义,最终可以得到下图:
在得到最终需要处理的项集后,接下来是如何隐藏这些高效用项集,也就是需要对源数据库 $\mathcal{D}$ 进行调整。该算法提出一种能够对 PPUM 问题获取全局最优解的 constraint satisfaction problem (CSP) 模型。该模型按照通常思路,直接通过修改敏感项集的 internal utility (如 数量) 达到隐藏的效果。然而,降低多少值才合适是一个未知的状态,即算法需要解决的问题。至此,隐藏敏感项集的问题通过 CSP 模型转换成对敏感项集的内部效用值进行最优调整,同时要保持 $I_N$ 数据的完整性
对于要调整的项 $xi$ 的内部效用值 $v{ij} \in U$,当 $x_i \in s_i \subseteq Tj$ 时,用 $u{ij}$ 表示调整后的值,其他情况仍然使用其原值 $t{ij}$。那么可以得到新的项集效用值计算公式 $\sum{X \subseteq T_j \land Tj \in \mathcal{D}}\sum{xi \in X}(v{ij} \times Ex(x_i))$,其中 $Ex(x_i)$ 指的是 $x_i$ 的 external utility (如 单价)。显然,对于 $I_N$ 中的项集按照该公式计算必然是要大于或等于给定的阈值,对于 $I_S$ 和本来就是低效用的项集按照该公式计算必然时要小于给定的阈值
总结起来,论文提出的 CSP 模型可以公式化如下:
目的:取 min$\sum{v{ij} \in U}u_{ij}$
$\sum_{X \subseteq T_j \land Tj \in \mathcal{D}}\sum{xi \in X}(v{ij} \times Ex(x_i)) < \delta$,$\forall X \in I_S$
$\sum_{X \subseteq T_j \land Tj \in \mathcal{D}}\sum{xi \in X}(v{ij} \times Ex(x_i)) \ge \delta$,$\forall X \in I_R$
$u{ij} \ge 1$,$\forall u{ij} \in U$
特别地,论文在设计算法中出于成本的考量,算法对 $I_R$ 进行有选择地删减,比如添加项集的长度限制等(因为越长的项越容易涉及敏感高效用项集)
伪代码
算法大致流程如下:输入原始数据库/集 $\rightarrow$ 构造表 $\rightarrow$ 预处理 $\rightarrow$ 使用约束模型 $\rightarrow$ 得到扰动后的数据库/集
Table constructions
Pre-processing
CSP formulation
总结
个人认为,使用整数线性规划去寻找全局最优解是本文的最大亮点,其次是提出的 CSP 模型,将隐藏项集问题转化成容易计算的内部效用值调整问题。实验结果表明,新算法在隐藏效果上表现尤为突出,即便在开支上表现不是最优。越是稀疏的数据集,隐藏效果越好。原因也很简单,敏感项集和非敏感项集的交叉会更小。在闭包项集方面,个人认为还是有讨论的空间,比如为什么不设定 $g(X) \not\subseteq g(Y)$ 这类条件作为闭包的判断依据?预处理的第三个步骤,为什么可以在没有任何 丢失成本(missing cost) 的情况下对 $I_{N}^{\prime\prime}$ 的元素进行闭包删减?
参考
A novel algorithm for privacy preserving utility mining based on integer linear programming
Integer Linear Programming (ILP)
CHUD算法
原文:https://juejin.cn/post/7097055568862887966