主讲人:张军英,西安电子科技大学 计算机科学与技术学院(Junying Zhang, School of Computer Science and Technology, Xidian University)
讲座时间:2018年12月9日(周日)下午3:00-4:00
讲座地点:海韵教学楼304
摘要: 计算生物信息学是从大量生物数据中挖掘信息的学问。作为其典型代表,全基因组关联分析的目的是从全基因组(三百多万甚至更多的DNA变异位点,也称为SNP)中找出某个复杂疾病的本质致病原因以及因果关系,为生物学服务。多基因致病、多原因致病、多因果特性、多原因的咬合、因果的非必然联系、没有致病的主基因、数据的大数据、小样本、高噪声、样本不平衡等等,使得问题异常复杂,任何错误都可能误导对疾病的生物学认识。另一方面,目前“大部分的研究发现是错的”,大量地标性成果重复性差——所谓的重复性危机:结果很不稳定,不比随机分类强,把噪声发现当作科学发现,统计重要性不等于科学重要性等,而这些错误甚至正在不断传播和蔓延,严重影响了科学的声誉和进程。那么什么做法是对的,什么结果是对的?做法上应该无假设、无模型、无参数,而找出的应该是真正“存在”的、有“科学重要性”的”本质““原因”。“存在”,”本质“,“原因”,“科学重要性”,这些似乎哲学味十足的词汇,需要在大数据挖掘中落地,这是生物信息大数据对数据分析与挖掘的挑战,也是使数据分析从技术走向科学的必经之路。
主讲人简介:张军英是西安电子科技大学计算机学院教授、美国弗吉尼亚理工大学电子工程与计算机系高级访问学者(2001-2002,2007),香港中文大学地理资源与管理系高级访问学者(2004),并多次赴美、英、法、意、德等国进行学术合作和讲学交流(2015-)。目前担任国际知名刊物《Digital Signal Processing》编委、中国医药信息学会陕西学会副理事长、生物计算与生物信息处理专委会、陕西省应急管理专家。目前主要研究癌症相关计算生物信息学、机器学习、原因学习、数据科学、重拖尾数据统计分析、计算机辅助精准医疗等。曾获教育部科技一等奖1项、省科技奖4项、在《IEEE Neural Networks and Learning Systems》《Expert Systems with Applications》《中国科学》《自然科学进展》等国内外顶级刊物发表论文近百篇,主持国家自然科学基金项目和省部级项目数十项,多次应邀在国际国内学术会议上做大会报告。
外事秘书 在
提交