宋韶旭:数据质量管理:变废为宝的探索
报告题目: 数据质量管理:变废为宝的探索
报告人: 宋韶旭
时间:2023年7月18日(周二) 下午2:45-3:30
地点:王选所106会议室
报告摘要:
数据质量评价通常具有一致性、完整性、精确性等维度。直接丢弃存在问题的数据,将进一步损害数据的完整性。为最大程度保留数据资产,实现变废为宝,需要持续探索数据集成和清理等关键技术。大量实践表明,正确数据往往具有特定规律,而错误数据则经常是五花八门。受此启发,数据质量管理的过程可以分为以下步骤,迭代进行,即(1)利用数据匹配技术识别内在的关联,(2)利用数据画像技术发现隐含的模式,(3)利用数据检验技术探测可能的错误,(4)利用数据修复技术修补检测的问题。报告将针对关系、图、时间序列等不同类型数据,分别介绍上述数据质量管理流程的探索。
报告人简介
宋韶旭,清华大学软件学院副教授、博士生导师。从事数据质量、数据集成和数据挖掘方面的研究。主持多项国家自然科学基金项目、国家重点研发计划项目课题。成果在TODS、VLDBJ、TKDE、SIGMOD、VLDB、ICDE、KDD 等CCF-A类期刊和会议上发表。担任PVLDB、ESWA编委,JCST青年编委,ACM JDIQ、BDMA特约编辑,IEEE BigData 2022 PC Vice Chair,VLDB、ICDE、KDD、SIGIR等国际会议程序委员会委员,中国计算机学会数据库专业委员会执行委员,NDBC最佳论文评奖委员会委员。入选国家万人计划青年拔尖人才,获得北京市科学技术进步奖一等奖,VLDB 2019、CIKM 2017杰出评审奖等。