2020年11月28日,数据科学与工程学院2020年学生科研创新成果展在中北校区科学会堂一楼展厅举行。近30位年度企业奖学金、国家奖学金获得者进行科创成果展示,校内外专家、企业代表、我院师生出席活动。
展示会现场,各项目通过海报展板及demo,对成果进行全方位、生动展示。获奖项目涉及领域广泛,涵盖教育、金融、文学、航天等多个领域,体现了数据专业对社会各领域的深度融合;成果详实,兼具创新性与实用性,展示了数据学子基础扎实、学以致用的良好素养。项目负责人耐心回答观展嘉宾提出的问题,认真听取专家、老师的意见建议,积极与同学朋辈分享科研经验。观展同学若能在交流时提出优秀问题,还将获得项目组提供的特别奖励。现场互学、互鉴氛围浓厚。
交流的同时,每位观展来宾将以投票的方式对最欣赏的项目进行“点赞”。为进一步选树典型,鼓励广大学子从优秀走向卓越,由教师代表组成的评审小组从科研创新性角度评选一个“创新奖”、企业代表从成果转化角度评选一个“潜力奖”、根据现场投票情况选出一个“人气奖”。最终,三个特别奖成功诞生,并在接下来的奖学金颁奖典礼中隆重表彰。
15:00,本次展示会圆满结束,大家意犹未尽,期待着有更多机会交流思想、共同进步。
数据科学与工程学院成立四年以来,始终坚持“应用驱动创新”和“开放成就创新”的理念,与企业深度合作,通过建设企业联合实验室、设立企业冠名奖学金,深化协同育人成效。面向未来,数据学院将继续培养具有创新意识、实干精神的高素质专业人才,继续砥砺前行。
奖学金获得者项目简介
国家奖学金
李志方
XeFlow: Streamlining Inter-Processor Pipeline Execution for the Discrete CPU-GPU Platform
本项目研究了如何在分离式CPU-GPU体系结构下实现流水线执行。传统的CUDA编程模型仅能实现粗粒度的微批次流水线,不适用于细粒度的工作场景。借助新型GPU的统一虚拟内存,本项目提出了持久化算子和共享队列技术以支持细粒度的连续CPU-GPU流水线,突破传统CUDA模型的限制。
方敏
High-Performance Smart Contracts Concurrent Execution for Permissioned Blockchain Using SGX
此项目提出了一种基于可信硬件SGX的智能合约并发执行框架,该框架可以避免在所有节点上重新执行所有智能合约,节点间的一致性仅需通过状态复制即可实现,从而提高节点间的并行性。此外,还提出了一种称之为Merkle Forest的数据结构,可以并行生成紧凑Merkle多值证明,并支持并行地验证。
赵俐晟
Automatic Calibration of Road Intersection Topology using Trajectories
每天滴滴都会为上千万人提供出行服务,在这一过程中积累了海量轨迹数据。这些轨迹数据不涉及用户隐私,主要反映了公共道路上的交通状况和司机驾驶习惯。此文章主要分享如何从海量轨迹数据中提取关键信息,改善用户出行体验。
梁鑫
面向金融事件检测的层级多标签文本分类算法
金融事件检测是实现金融事件推荐和构建金融知识图谱的重要基础工作。金融事件体系往往呈现为层级结构,因此作者将其建模为层级多标签文本分类(HMTC)问题并且基于Transformer来构建编码单元,从四种分类错误的情况出发重新设计基于层级依赖的标签距离度量机制,提出层级多标签距离HMD并结合迭代正则机制引导分类模型优化。
苗德壮
PIPE:代码逻辑错误识别
PIPE模型通过对学生代码语义的表征,结合多标签分类器对学生代码进行自动化的识别。通过PIPE模型的反馈将错误信息及时反馈给学生,解决实际教学中的问题。一方面,能帮助学生自主进行错因分析,提高学习效率;另一方面,为教学人员减少重复性工作,便于开展大规模变成教学。
汤琼
旧会友—书香校园生涯交流平台
该项目集成二手教辅、二手书籍等物品的交易,以及以书籍为载体的社交功能。项目将实现综合社交、旧书交易综合一体的解决方案;且专注于建立书籍社交网络,具有广覆盖,强粘性,高渗透,深辐射的特点。
段晗祈
基于树莓派的便携式局域网授课平台开发
此项目使用微型电脑树莓派作为后端硬件,搭建轻量化便携式局域网线上教育系统,给予网络弱覆盖及无覆盖地区的师生共同的信息化授课平台。此项目在使用最新软件架构的同时,降低硬件成本,且面向较低配置的客户端设备友好,最大程度提高云课堂可用性和覆盖率。
企业奖学金
王清帅
CTouchstone : A Cloud-based Query-Aware Workload Generator For Big Data Era
CTouchstone是一款云原生的查询感知的负载生成器,旨在模拟应用数据库以对候选云数据库进行性能测试。它提供了一种高效且可扩展的方式来生成模拟数据库,并可以保证性能仿真的有效性。它与K8s高度集成,因此可以获得出色的可管理性,可伸缩性和弹性。
戚晓冬、陈之豪
可扩展的区块链确定性并发交易执行
此项目基于确定性并发协议,设计了可扩展的联盟链分片系统。该项目提出了共识、执行、存储分离的系统架构。在保证多个执行节点的并发执行的结果满足可串行化和确定性的要求下,实现了共识和执行的可扩展性,提高了系统吞吐。
卫孝贤
基于事务日志的多主云数据库缓存一致性维护机制
当前的存储计算分离的商业云数据库在计算层仅支持一写多读,不支持写性能的弹性扩展。本项目基于存储计算分离架构提出一种基于事务日志的多主云数据库缓存一致性维护机制,该机制通过协调多个主节点的事务提交,保证节点缓存的一致性,进而提供了多主支持。
王皓月
基于图数据科学的开源全域行为数据分析与应用
基于 Git 系统的协作模式已经在生产环境中越来越流行,Git 系统可以很好地记录、追踪全过程的数据,为后续的数据分析建模提供了便利。通过异质信息网络降维,得到了开源世界的全景图,同时也构建了基于开源大数据的软件产业发展指数平台用于研究全球开源供应链与开源软件生态。
朱鹏
ST-Trend: 基于金融知识图谱和新闻事件的股票趋势预测
ST-Trend是第一个利用金融知识图谱和新闻事件来预测股票趋势的模型。项目通过算法交易平台中的模型输出来部署交易策略,以评估实际场景中的有效性,结果证明作者的方法可以有效发现事件与股价之间的关联关系,从而能够更加准确地预测出涨跌的趋势。
范泽秋
面向航天领域的科研数据服务平台
此项目的目标是解决中国航天科工集团某某所中各个科室因信息化建设相对落后而导致的数据孤岛问题,打造集数据采集、数据分析、数据治理、监控管理、预测预警、可视化平台于一体的科研数据服务平台。致力于以信息化提升数据化管理与服务能力,及时准确掌握材料研发设计情况,真正做到“用数据说话、用数据管理、用数据决策”。
王冬慧
Discriminative Admission Control for Shared-everything Database under Mixed OLTP Workloads
为了缓解在混合OLTP负载下数据库面临的资源争用问题,本项目设计了一种区分性流量控制机制DAC。DAC以冲突区为粒度对各类事务进行流量控制。在现代内存数据库和传统磁盘数据库上的实验结果均表明,DAC可以显著提高OLTP引擎在混合OLTP负载下的性能。
杨溢
Fault-Tolerance for Distributed Graph Processing Systems in Action
分布式图处理系统通常采用悲观恢复和乐观恢复来容忍故障。针对悲观恢复,此项目提出了queuing strategy来缓解以非阻塞方式写检查点导致的资源竞争问题。此外,为了从队列中选择最优的检查点,此项目还提出了staleness/tardiness-aware skipping policy。针对乐观恢复,为了避免从输入文件恢复丢失数据所导致的高昂开销,此项目提出了realistic recovery。
许应杰
基于目标检测的低像素下手写数字串识别的研究
此项目提出的模型不同于基于序列的识别方法,在缺乏样本多样性的情况下,识别精准度很差。由于目标框的存在,本项目的方法可以很好地避免这个问题。同时,与传统的目标检测方法相比,所提出的解决方案在提高识别精度的同时,减少了识别时间。
刘力
面向太湖之光的模板计算性能建模
此项目建立了神威太湖之光平台上大规模的科学计算程序的性能模型,该性能模型融合了软硬件特性与分块策略,量化地分析程序各部分的运行状态,指出程序的运行性能瓶颈,以此来指导程序的性能优化并给出最佳的分块方案。
范家宽
数据驱动的开源贡献度量化评估与持续优化方法
作者提出了一种数据驱动的开源贡献度量化评估与持续优化方法,该方法主要包括两个部分:开发者贡献度量化模型和开发者贡献度提升模型。此项目不仅为当下广泛开展的开源项目和开源社区的可持续健康发展提供了方法和工具上的支持,还可以尝试迁移到教育场景中,通过自适应策略引导的方式提高学生课程知识的掌握程度。
黄晨晨
基于RDMA和NVM的高性能索引技术
本项目分别基于RDMA和NVM设计了两种高性能的索引结构R-skiplist和BPTree。RDMA可加速索引的远程访问,但却打破了传统网络与CPU之间的平衡,使得存储层的CPU快速达到瓶颈。R-skiplist借助RDMA单边操作Bypass CPU的特性来解决此问题。NVM的持久性和大容量为降低索引维护开销带来了机遇,但却存在许多的使用考量,比如读写放大和锁开销放大等。BPTree针对这些问题做出了相应的设计使得其在NVM上能发挥最佳的性能。
张子豪
SlimStore-面向云备份的重删系统设计
云存储的弹性容量和灵活的定价方式为用户提供了方便快捷的数据备份能力。本项目旨在如何在云备份上通过设计重删系统,减小存储规模,降低存储成本。SlimStore通过将计算和存储分离,并采用轻量级重删和恢复方法,从而获得了快速且可扩展的重删和恢复能力。
郑智杰
水杉在线——新一代数字化全链路在线学习平台
“水杉在线”在开发和运维中深度结合微服务优势,实现基于Docker的容器化运维部署和运维。为了打通“水杉学堂”、“水杉工坊”、“水杉校场”、“水杉码园”模块引入OAUTH2.0权限管理框架,对不同模块用户统一管理。前端采用了轻量级的Vue框架,结合Quasar实现自适应布局,提供从手机到PC的全平台自适应布局,后端基于成熟的工业级框架Spring Cloud,实现标准的RESTful API,并提供高性能、高并发的服务。
董钰
水杉校场——智能在线编程评测系统
此项目是基于开源软件OnlineJudge 2.0开发的智能在线判题系统JF,其分为4个子模块,分别包括前端(Vue),后端(Django),判题沙箱(Seccomp),判题服务器(JudgeServer),分别封装为独立的docker容器。在JF系统上部署相关深度学习应用对于学生编程入门和减轻助教负担上有一定的实际意义。
王伟杰
Improving relation extraction by multi-task learning
作者提出为关系抽取任务引入多任务学习,使用辅助任务来学习那些只从关系抽取任务本身不易学习到的特征,并为基于多任务学习关系抽取模型加入知识蒸馏来帮助知识的迁移。通过基于预训练语言模型 BERT 的实验表明,为关系抽取引入辅助任务并加入知识蒸馏后,本文提出的模型在 SemEval2010-task8 数据集上的表现优于主流的关系抽取模型。
高素婷
DAPS:基于动态自步集成的极度不平衡数据分类算法
DAPS是针对日常业务中比较常见的极度不平衡场景而提出的算法,在这种场景下,常用的不平衡算法往往伴随着严重的信息丢失和过拟合等问题。DAPS使用动态自步采样来避免信息丢失并建立更鲁棒的模型,使用识别“被否决”样本并加权来更好地学习数据重叠区域的决策边界样本并避免学习噪声。
曹云昀
长篇文学智能分析与交互可视化系统
此项目针对长篇文学阅读中存在阻碍阅读的问题,对文学作品进行可视化。平台主要分为算法和数据可视化两个部分,提供可视化工具,满足读者自定义的需求。此平台已部署在云服务器上,可供读者点击访问。
魏如蓝
论文图像复用的机器自动检查
项目搭建了一个“一图多用辅助查重系统”,通过对论文图像的提取,建立专业领域数据库,有针对性地对论文图像进行论文内和数据库内对比,向用户返回高相似度图片对比图,由此来极大程度上遏制“一图多用”的学术不端行为。
徐志榛
SystemML执行可视化工具
项目针对SystemML平台目前可视化工具匮乏的现状,以及SystemML的使用者(包括许多不熟悉分布式系统底层运行逻辑的开发者和数据科学家)了解代码运行状况的需求,实现了一个针对SystemML平台机器学习任务的可视化工具。
陈诺
矿物鉴定的模拟实验设计和交互式虚拟平台设计
此项目提供一个矿物鉴定APP,可通过拍照和专家系统的方法鉴定矿石。模型使用Resnet50,并在预处理时使用Cut-out方法。整个鉴定过程不受场地和实验器材限制,解决了使用物理化学方法鉴定费时费力的问题,为中小学教育及野外考察提供便利。
牛悦安
在线普通话语音纠错分析平台
该平台可以实现出题、在线批改、生成评价报告、总结错误特点等功能,能够帮助大量老师提升工作效率。并且除我校老师,经过实践验证,此平台还推广到了其他学校。
文字:陶慧玲
图片:王皓月
排版:林妍妤