第二个主题报告的题目是《可视数据科学-通过计算与交互应对挑战性数据场景(Visual Data Science – Integrating Computation with Interaction to Master Challenging Data Scenarios)》,报告的嘉宾是挪威卑尔根大学的Helwig Hauser教授。Helwig Hauser是挪威卑尔根大学可视化教授和数据科学中心CEDAS的负责人,关注数据科学的跨学科研究,以及数据科学教育和应用。在信息时代,研究者以及相关从业人员需要处理大量复杂的数据,包括多维集合数据集、流数据等。为了应对这样的挑战,越来越多的学科通过交叉合作的方式来发挥各自优势。可视数据科学即将交互式可视化与机器学习、统计等方法巧妙结合起来,让专家参与决策过程。Hauser教授的报告分为三个部分,第一部分是对数据科学、可视化数据科学概念的介绍,第二部分讨论其中的相关研究问题,包括高维数据分析、模型修正、可视化交互等,第三部分是对于开展交叉学科研究的心得和展望。
图1:可视数据科学的研究内容
数据科学属于一个交叉学科,涉及到统计方法、机器学习、大数据等多方面的知识领域。现在我们正处于数据爆炸的时代,大量信息的产生使得人们难以保持专注,同时在科学和商业中需要相关的应用对于数据进行分析,因而对于数据科学的相关研究以及人才有着热切的需求。现在出现越来越多的关于数据科学的博士、硕士项目以及研究中心的建立,数据科学的研究需要更高的教育背景和交叉领域知识。对于可视数据科学,Hauser教授认为是指在可视化助力下的数据科学,它将专家知识放进数据科学的分析流程中,从而将二者的优点相结合。可视数据科学与可视分析密切相关,但是不仅仅是数据的探索和分析,还涉及到猜想的生成、模型参数的修正等。可视数据科学面对的挑战一方面是数据规模越来越大,高维、异构等数据广泛存在,另一方面是相关方法在使用过程中所需求的用户知识、时间以及伦理等非技术问题。
接下来,Hauser教授介绍了与合作者开展在可视数据科学开展的部分工作。高维数据往往是异构的,涉及到不同类型的属性以及组合方式,对于不同维度和数据项的分析需要统计方法和可视化的紧密结合。Hauser教授介绍了针对维度空间和数据空间的双重探索分析方式 [1],通过focus+context方式探索层次投影 [2],灵活刷选数据维度进行交互式迭代分析 [3]等工作。针对可视化通常和建模、数据生成过程分隔的问题,Hauser介绍了通过可视交互在汽车工业中快速模拟设计结果、提高设计效率的工作 [4]和在更复杂系统中使用结合了可视交互和自动优化的混合交互技术,从而提高参数采样效率,减少所需模拟计算的工作 [5]。交互式可视化系统拥有高度灵活的界面,包含很多参数,支持连续型的交互,同时其探索过程不断变化,过程中的数据洞察不一定能转化成可执行的洞察。Hauser教授介绍了可以将定量结果显示在可视化结果中,如通过展示原始数据中不符合模型的异常值,来指导科学家进一步探索模型缺陷 [6],以及通过显示局部回归模型的结果帮助用户进行比较 [7]。定量化的思想还可以用在交互中,如限制刷选的范围为一些统计上重要的数值,从而提高交互的可复现性 [8]。延迟影响人的感知认知,例如流畅的动画和交互要求延迟小于0.1秒。Hauser教授介绍了可视数据科学中如何使用交互提高效率。例如,允许用户在分析时序数据集合时交互生成数据属性,提高用户分析数据隐藏信息的效率 [9],以及渐进式的可视分析技术 [10]。最后,鉴于可视分析系统中交互的代价较高,Hauser教授介绍了优化的交互技术,从而提高交互效率。例如,通过计算迹线的属性空间统计值,确定迹线分析所需的属性集,从而改善交互分析效果 [11]。而机器学习技术同样可以应用于交互技术的优化,Hauser教授介绍了通过机器学习预测提高交互过程中的某个组成部分效率的系列相关工作 [12, 13, 14, 15],包括时序特征的选择 [12]、用户刷选目标的预测 [13]等。
Hauser教授介绍了可视数据科学的交叉科学特点。成功的数据科学需要和数学、统计学、编程、数据技能、机器学习、可视化等诸多领域进行交叉,还需要掌握领域知识、人道主义、伦理学等。Hauser教授也描述了数据科学家应该符合T型模型,即广泛的涉猎的同时,专精于一个领域。他还启发大家思考交叉学科的教育、队伍构建、工作发表等方面的问题。
图2:可视数据科学的多学科交叉特点
最后Hauser教授总结了可视数据科学的一些经验,包括谨慎地使用方法,不要对发现有过多预设,黑盒式的模型也可以是正确的解决方案,现实数据存在诸多挑战,用户的交互频率是衡量系统质量的重要指标。
参考文献
[1] Cagatay Turkay, Peter Filzmoser, Helwig Hauser. Brushing Dimensions - A Dual Visual Analysis Model for High-Dimensional Data. IEEE Trans. Vis. Comput. Graph. 17(12): 2591-2599 (2011)
[2] Thomas Höllt, Anna Vilanova, Nicola Pezzotti, Boudewijn P. F. Lelieveldt, Helwig Hauser. Focus+Context Exploration of Hierarchical Embeddings. Comput. Graph. Forum 38(3): 569-579 (2019)
[3] Johannes Kehrer, Peter Filzmoser, Helwig Hauser. Brushing Moments in Interactive Visual Analysis. Comput. Graph. Forum 29(3): 813-822 (2010)
[4] Kresimir Matkovic, Denis Gracanin, Mario Jelovic, Helwig Hauser. Interactive Visual Steering - Rapid Visual Prototyping of a Common Rail Injection System. IEEE Trans. Vis. Comput. Graph. 14(6): 1699-1706 (2008)
[5] Kresimir Matkovic, Denis Gracanin, Rainer Splechtna, Mario Jelovic, Benedikt Stehno, Helwig Hauser, Werner Purgathofer. Visual Analytics for Complex Engineering Systems: Hybrid Visual Steering of Simulation Ensembles. IEEE Trans. Vis. Comput. Graph. 20(12): 1803-1812 (2014)
[6] O. Daae Lampe, Helwig Hauser. Interactive Model Prototyping in Visualization Space. SIGRAD 2011: 43-51
[7] Kresimir Matkovic, Hrvoje Abraham, Mario Jelovic, Helwig Hauser. Quantitative Externalization of Visual Data Analysis Results Using Local Regression Models. CD-MAKE 2017: 199-218
[8] S. Rados, Rainer Splechtna, Kresimir Matkovic, Mario Duras, M. Eduard Gröller, Helwig Hauser. Towards Quantitative Visual Analytics with Structured Brushing and Linked Statistics. Comput. Graph. Forum 35(3): 251-260 (2016)
[9] Zoltan Konyha, Alan Lez, Kresimir Matkovic, Mario Jelovic, Helwig Hauser. Interactive visual analysis of families of curves using data aggregation and derivation. I-KNOW 2012: 24
[10] Cagatay Turkay, Erdem Kaya, Selim Balcisoy, Helwig Hauser. Designing Progressive and Interactive Analytics Processes for High-Dimensional Data Analysis. IEEE Trans. Vis. Comput. Graph. 23(1): 131-140 (2017)
[11] Armin Pobitzer, Alan Lez, Kresimir Matkovic, Helwig Hauser. A statistics-based dimension reduction of the space of path line attributes for interactive visual flow analysis. PacificVis 2012: 113-120
[12] Philipp Muigg, Johannes Kehrer, Steffen Oeltze, Harald Piringer, Helmut Doleisch, Bernhard Preim, Helwig Hauser. A Four-level Focus+Context Approach to Interactive Visual Analysis of Temporal Features in Large Scientific Data. Comput. Graph. Forum 27(3): 775-782 (2008)
[13] Chaoran Fan, Helwig Hauser. User-study Based Optimization of Fast and Accurate Mahalanobis Brushing in Scatterplots. VMV 2017: 77-84
[14] Chaoran Fan, Helwig Hauser. Fast and Accurate CNN-based Brushing in Scatterplots. Comput. Graph. Forum 37(3): 111-120 (2018)
[15] Chaoran Fan, Helwig Hauser. Personalized Sketch-Based Brushing in Scatterplots. IEEE Computer Graphics and Applications 39(4): 28-39 (2019)
原标题:《IEEE PacificVis 2021 主题报告 Ⅱ》