2019年1月28日,来自浙江大学管理学院、浙江大学数据科学学院、浙江大学数据分析和管理国际研究中心、浙江大学数据科学研究中心、大连理工大学、浙江工业大学的学者在紫金港校区校友楼举办了年终研讨会,主题为商务数据分析与应用。会议由浙江大学管理学院周伟华教授和陈熹教授主持。具有管理科学与工程、统计、数学、市场营销、医疗管理、计算机等学科背景的学者们汇聚研讨,与在场师生分享了各自最新的工作成果。
浙江大学数据分析和管理国际研究中心主任 周伟华教授
大连理工大学的胡祥培教授分享了他的研究方法——通过融合运筹学和人工智能实现定性分析与定量分析相结合,人的智能与机器智能相结合,以解决复杂的管理决策问题,在物流调度、应急管理和生产调度等领域得到了充分的应用。他详细介绍了目前的研究项目,物联网环境下基于情景的在线智能调度优化算法,并以西藏大棚建设中的温室光照与智能补光调度为案例证实了研究的现实意义。
大连理工大学 胡祥培教授
浙大管院的杨翼教授主要介绍了数据驱动的库存及收益管理问题。这些问题的主要目标是匹配商业活动中的供给和需求,以减少企业的库存持有成本。研究过程中发现经典的库存模型存在一些弊端,所以研究已经由传统模型驱动的优化问题转变为数据驱动的优化及统计问题。他还介绍了一些数据驱动方法,如SAA,classic robust optimization,data-driven robust optimization等。
浙江大学管理学院 杨翼教授
从社交网络分析的研究视角出发,浙大管院的陈熹教授介绍了目前数据驱动的市场营销方向主要的研究问题及挑战。例如以游戏“龙之谷”中付费玩家和免费玩家的相互影响为案例,研究社交网络影响的重复购卖问题,主要难点为同质性(homophily)和同伴影响(peer influence)两个效应相互交织,难以单独计算。再者是社交网络与股票波动的关系。以股票为节点形成一个社交网络,利用网络中传导的相关信息,对股票进行分组观察股票的相似性,以此分析股票波动的影响因素。
浙江大学管理学院 陈熹教授
浙大数据科学研究中心的苗晓晔研究员的研究领域为多元异构数据的管理和分析。她发现在地理信息系统、社交媒体、医疗诊断等领域,从现实中的获取的数据存在很强的不确定性,会导致查询结果的不确定。为解决这一问题,许多研究者提出了概率查询方法,但概率查询的结果也存在一些扰动项。因此她提出了新的索引技术、新的启发式算法和精确近似算法,目标是通过选择一组不确定的对象,在有限的可用资源下进行清理,从而优化查询质量。
浙江大学数据科学研究中心 苗晓晔研究员
浙大数据科学研究中心的骆威研究员主要分享了充分数据降维(Sufficient Dimension Reduction)与因果推论(Causal Inference)方面的内容。在充分数据降维过程中,没有丢失任何自变量的信息,也不假设自变量与因变量之间存在任何的模型。他深入浅出地运用鲍鱼年龄与其他体征之间存在关系的例子来说明数据降维的过程。同时也介绍了在SDR中所使用的一些方法,例如Inverse Regression、SIR、SAVE、MAVE等方法和在不同情景下的最新研究。
浙江大学数据科学研究中心 骆威研究员
浙大管院的金庆伟副教授介绍了基于顾客选择进行利润和产品组合管理的两个问题。顾客选择行为可以通过MNL选择模型刻画,其中一个问题是当选择行为受企业提供的产品选择组合和顾客自有的偏好组合影响时,基于In-Tree Out-Tree两种产品组合结构,当产品能够按照边际利润排序时,只有In-Tree结构能解,其余都是NP-hard问题。另一个问题则拓展到多产品多周期的动态定价问题,通过regret parameter衡量机器学习解和优化解之间的差距来衡量机器学习的效果发现,机器学习的时间是有限的,进而发现可以通过机器学习摆脱优化模型。他提出未来可通过机器学习来估计优化模型中的参数。
浙江大学管理学院 金庆伟副教授
围绕在时间序列中的高维数据问题,浙大数学科学学院的张荣茂教授首先概述了大数据的定义以及分析大数据所要解决目标。而大数据就具有典型的高维特点,当数据维度大于数据样本量时就需要使用一些降维的方法。其次介绍了PCA、Factor Analysis、Regularization methods等相关的降维算法,以及在非平稳数据中时间序列问题的应用。例如大数据方法在金融领域的应用,以及加拿大山猫与野兔数量关系的预测问题,并提到利用分段平稳时间序列的方法来解决。学者们在LSTM等算法的发展与高维时间序列等方面进行了讨论。
浙江大学数学科学学院 张荣茂教授
浙大数学科学学院的庞天晓副教授的报告主要是关于预测在非平稳自回归模型中的变点问题。他提到使用均值变化模型来估计变点的位置,并且介绍了一种对于前人研究的改进方法,该方法应用于非平稳数据中且不需要再进行假设检验的方法,可直接利用两步法估计得到变点的位置。另外,他重新审视前人在金融领域利用假设检验的方法解决金融泡沫模型问题,并且在此问题上有所改进。
浙江大学数学科学学院 庞天晓副教授
互联网医院近年来慢慢开始成为热点。浙大管院的童昱研究员向大家介绍了自己在医疗领域的相关研究。她提到之前的相关文献研究中都仅仅局限于单一平台,且很少有文献评估对于实际健康状态的影响,而且不同年龄组的影响也没有设计,因此其研究正是关于不同线上平台中疾病相关内容对于人们就医的影响。另外,关于不同年龄组对于该影响有何不同的表现。童老师利用论坛、新闻、社交网络等三种线上内容数据对该问题做了深入研究,并得到了相关结论。在场学者就滑动数据窗口方法中可能出现的特殊情况交换意见。
浙江大学管理学院 童昱研究员
已有的聚类方法已经无法对分类数据categorical data实现良好的聚类效果,浙大数学科学学院的张朋教授开发了分层伯努利贝叶斯混合模型对具有稀疏特征的类数据进行聚类,通过贝叶斯方法估计服从贝塔分布的约束概率,然后使用估计的概率对类数据进行聚类。根据BOSSA相似性定义BOSSA score进而确定每个类别的特征,该聚类方法有效实现了降维。最后该研究在动物园数据和社交网络数据中实现了可视化。
浙江大学数学科学学院 张朋教授
田野实验既能实现实验干预又能涵盖真实世界的客观规律,浙大管院的王小毅副教授首先通过田野实验研究了天气和促销信息有效性的关系,研究发现晴天时促销效果更好,而消极形式的促销对晴天会带来的积极正向促销效果有一定的抑制作用,而对阴雨天会带来消极负性促销效果有一定的改善作用。此外,通过田野实验研究精准营销的机会成本,基于电子书本章节连续阅读数据,发现因为跨类别点击量减少,精准营销减少了总体销售量。
浙江大学管理学院 王小毅副教授
本次研讨会得到了浙江大学管理学院数据科学和管理工程学系、浙江大学数学科学学院统计系的支持,跨学科、跨专业的学者分享研究成果、交流思想,为今后潜在的合作项目打开新局面。浙大数据科学研究中心副主任张立新教授表示,学科之间有很多相通之处,期待今后双方能有更多与实际问题结合的合作研究。
文字素材:杨金鑫、李泽宇、薛冬梅
原文编辑/摄影:张韵茹