KDD 2015 Best Research Paper Award: “Algorithms for Public-Private Social Networks”
the public graph is visible to everyone,and the private graph at each node is visible only to the user at the node. From each node’s viewpoint, the graph is just a union of its private graph and the public graph.
隐私问题决定了在社交网络的成员之间共享信息的方式。在最简单的情况下,用户可以将她的一些朋友标记为私人; 这将使得该用户和这些朋友之间的连接(边缘)仅对用户可见。在不同的隐私实例化中,用户可以是私人组的成员; 在这种情况下,组成员中的所有边缘被认为是私有的。
因此,社交网络中的每个用户具有她自己的网络的链路结构的视图。这些隐私问题还影响网络本身可以被算法查看和处理的方式。例如,不能使用用户X的私人朋友的列表来向网络上的另一用户建议潜在的朋友或公共新闻项目,但是可以使用该列表来为用户X建议朋友的目的。
顺便吐槽一下我的研究方向,什么social network,真是为自己的智商着急,看过的东西就忘。
In fact, privacy controls the way information is shared among the members of the social network, and also influences the way in which the network itself can be viewed and processed by algorithms.
常见例子如:
Thus, each user in the social network has her own view of the link structure of the network.
这个Public-Private 为什么这么重要呢,值得米帝大企业谷歌研究。根据美帝的一个paper,Facebook users have become much more private。
中国有没有这类Public-Private social network的东西呢? 在人人网没过气之前,还是有的吧。也许是因为咱们隐私意识比较强吧。Wechat ,QQ属于纯Private social network。
social network providers can, naively speaking, run the algorithm once for each user, on the union of the public portion of the network and the user’s private network.
理想化的情况下,我们应当为每个人,利用其public information 和privacyportion 的并(union),来运行推荐算法。但效率上讲,这样做是不是实际的。
本文先做出了一些假设前提:
本文算法有个不平凡(non-trivial)的算法,解决了三个关键性问题:
- estimating all-pair distances
- estimating node (pairwise) similarities
- correlation clustering(关联聚类,Machine-Learning?)
对于前两个,论文使用了sampling-based algorithms that are efficient in the public-private model。最后那个update a clustering solution on the public graph using the edges in the private graph.
G=(V,E) 中,我们定义 n=|V| 和 m=|E|
Proposition 1. We can count the number of connected components in the public-private model using preprocessing time O(m) and space O(nlogn) and query time |Eu| .
计算出public-private图的连接组件。然后我们分配一个组件 每个节点标识符和存储这些信息;
假设任意
V
的子集
取
V′
中的点
v
,
假定 r(V′)>k ,令 Botk(V′) 表示 r(V′) 中k小的元素, Botk(V′)⊆r(V′) 。
令 bk(V′)=maxBotk(V′) 。
V′ 的规模可由如下表达式写出:
大致思路是,集合规模越大,最后求出的 r(V′) 越多。因为 r(V′) 是随机产生的,因此 Botk(V′) 取到的k小个元素会越小,因此其最大值也会降低。
最终通过分母反馈回 V′ 的规模。这个地方数学推到应该不难,预知更多见E. Cohen and H. Kaplan. Summarizing data using bottom-k sketches. In PODC, pages 225–234, 2007.
A nice property of this sketch is that it is composable;this is crucial in estimating the size of the reachability tree