剑客
关注科技互联网

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect…

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect...

分析大量的数据时,分析人士经常将共享某些属性的数据元素归为一个集合。使用这些集合作为分析的单位,不仅降低了数据量,而且还便于检测到数据中的各种模式。这涉及到分析这些集合之间的交叉关系,以及这些交叉集之间的元素属性如何不同。由于集合的通用性和强大的概念,这种基于集合的分析在各种领域中有着不同的应用。然而,可视化集合间的交叉关系是具有挑战性的,因为它们的数量会随着集合数量呈指数增长,而且交叉集的表示大小和它们所包含的元素也不成比例。本文[1]提出了一种新的基于树图的技术,对非空交叉集提供一个全面的概览,具有较强的可拓展性。它可以观察到元素是如何分布在这些交叉集的,以及进行更细粒度的分析,探索和比较它们的属性。交互允许基于这些元素集成员进行查询和过滤。我们展示了如何使用我们的技术支持各种用例的数据探索和分析,提供基于集的数据的观察,超越了国家的最先进的技术的限制。

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect... 图1 传统的交叉集表示形式

这篇工作的主要贡献在于:

  1. 提出了一种新的和可扩展的集和可视化方法;
  2. 拓展树图提供一个所有交叉集和元素属性的紧凑概览;
  3. 降低了基于集合的数据的复杂性和在探索需求的交叉集细节的难度;
  4. 应用集合可视化技术支持频繁模式和关联规则挖掘、多侧面搜索和调查数据分析。

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect... 图2 PowerSet基于树图的表示形式

文章首先对涉及到的两种交叉集的概念做了解释说明:

  • Full intersection:这包含A和B所有交叉集合的元素,而不管它们是否是其他组的成员。这可能涉及属于不同数量的集合的元素。这种方法忽略了在集合系统中的剩余集的存在,因此阻碍了检测细粒度的交叉元素之间的差异。例如,如果一个属性比这些元素中的平均值要高,还不清楚这是否是由于X或其他的条件在F/X中的条件。
  • Exclusive intersection:这包含所有只属于A、B交集元素,并没有其他集合。这种方法有助于在检测集合之间的差异,并形成一个适当的分区的所有元素。这些交叉点对应于该套控制系统的维恩图的原子区域,这使得这一划分细颗粒。这有助于检测基于他们的所有组成员的元素组之间的差异。

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect... 图3 两种交叉集的概念

Powerset的主要目标是提供一个简洁的所有交集的概览,以了解如何将数据元素E分布到不同的交叉点,以及它们的属性是如何在这些交叉点分布的。这是具有挑战性的,主要是由于潜在的大量的交叉点。为了满足这些设计目标,PowerSet使用一个基于树状图布局,利用特征基础数据集进行可视化。这种布局提供了一个紧凑的概述支持所有设置的路口,和本身的数据聚合和用户交互技术有助于降低数据的复杂性。在下面,我们将解释PowerSet如何在不同的地区根据自己的程度以及算法和策略运用到布局和标签这些交叉点。

  1. 首先将所有交叉集按照它是几个集合的交集进行划分,并水平地分割成不同的区域;
  2. 不同的水平区域可以进行折叠和展开;
  3. 再将各个区域按照交叉集中的元素数量按比例进行垂直划分,可通过人为设置改变排列的顺序。

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect... 图4 水平地分割成不同的区域

关于如何标记交叉集,本工作使用文本标签,一共有四种标记方法。假设交叉集中包含k个集合:

  • 如果有足够的空间,我们把空间分为K块所有的K标签,并添加所有的K个标签;
  • 如果空间能够容纳L个标签(1<L<k),则添加L个标签,标签的最后一个单元格为’…’或’ + Z,其中Z =(k + 1−L);
  • 如果空间太小,则不添加标签;
  • 如果不允许交互,则保留额外的空间用于添加标签。

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect... 图5 使用文本标签标记交叉集

下图为使用Powerset显示IMDB电影生产国家的用户界面,各部分的功能分别为:(a) 可视化参数,设置大小、颜色、顺序的属性编码;(b) 集合条形图; (c) 交叉集树图,颜色表示上映年份;(d) 选择一个特定的交叉集,显示集合列表;(e) 元素视图,以表格和柱状图/散点图的形式显示交叉集中所有元素。

PowerSet: 一种交叉集的综合性可视化(PowerSet: A Comprehensive Visualization of Set Intersect... 图6 系统整体图

总的来说,我们提出了一种新的技术叫做Powerset,通过扩展树图可视化交叉集合。Powerset可以处理比以前的方法更大的集数,并且还能够提供一个它们交集的简洁概览,展示如何将元素分布到不同的交叉集,以及它们的属性在这些交叉点之间的差异。Powerset提供专门的互动来向下钻取到数据元素,重点是对用户重要的交叉集。加上过滤和聚合方法,Powerset的视觉设计可以处理很大规模的系统。我们展示了Powerset在不同情境下的广泛适用性,可以模拟集和集的关系。

Reference

[1] Alsallakh B, Liu R. PowerSet: A Comprehensive Visualization of Set Intersections[J]. :1-1.

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址