成果簡介
近日,我校統(tǒng)計與數據科學學院副教授林紅梅、張日權教授與香港浸會大學的童鐵軍教授在國際知名統(tǒng)計學期刊《Journal of Computational and Graphical Statistics》上聯(lián)合發(fā)表一篇題為《When Tukey meets Chauvenet: a new boxplot criterion for outlier detection》的學術論文。
《Journal of Computational and Graphical Statistics》是由美國統(tǒng)計協(xié)會(ASA)和計算機協(xié)會(ACM)聯(lián)合主辦的圖形統(tǒng)計領域的頂級學術期刊,聚焦統(tǒng)計計算與圖形方法領域,涵蓋數據分析,數字圖形顯示等技術研究,被我校列為國際二類I期刊。

內容摘要
箱線圖(boxplot)——半個世紀以來一直是數據可視化最常用的工具之一。在經典的箱線圖中,線條(whiskers)的長度被定義為箱子(box)長度的1.5倍,然后線條范圍之外的觀測值就被標識為異常值。箱線圖最大的詬病是one-size-fits-all,也就是1.5倍的系數固化,容易對樣本量大的數據標識太多的異常值。


這項新研究(Lin et al., 2025)的最大創(chuàng)新在于“他山之石,可以攻玉”——通過跨時空融合兩位大師的思想,巧妙地將肖維勒準則引入箱線圖,動態(tài)確定箱線圖中的圍欄系數,進而提出了一種全新的箱線圖方法——肖維勒型箱線圖(Chauvenet-type Boxplot)。該方法不僅繼承了傳統(tǒng)箱線圖的直觀性,還充分考慮了樣本量的影響,既能控制隨著樣本量增大錯誤地大量識別異常值的問題,又能穩(wěn)健識別出真正的異常值,從而提升了異常值識別的合理性和方法的穩(wěn)健性。
同時,文章中推出了一款命名為“肖箱圖”(ChauBoxplot)的R包,全稱是“肖維勒準則指導下的箱線圖”,目前已正式發(fā)布在CRAN上。為方便用戶在不同的可視化場景下繪制“肖箱圖”,該R包也提供了兩個主要函數:chau_boxplot()和geom_chau_boxplot()。 其中,chau_boxplot()的用法與基礎R中的boxplot()類似,而geom_chau_boxplot()則可以像`ggplot2'包中的geom_boxplot()一樣進行調用。歡迎大家下載使用,并批評指正。
此文已經獲得了期刊的Open access,可以免費無限制地在線訪問和使用研究論文。
作者介紹
林紅梅,上海對外經貿大學統(tǒng)計與數據科學學院副教授,博士研究生導師。博士畢業(yè)于華東師范大學統(tǒng)計學專業(yè)。并曾作為聯(lián)合培養(yǎng)博士赴美國加州大學圣巴巴拉分校深造,作為高級研究學者赴美國加州大學河濱分校訪問交流,多次赴香港浸會大學、香港中文大學進行學術交流與訪問。主要研究方向包括非參半參數回歸分析、函數型數據分析、分布式統(tǒng)計方法等領域。在國內外統(tǒng)計學一流雜志 《Journal of the American Statistical Association》、《Statistica Sinica》等期刊發(fā)表論文30余篇,主持國家自然科學基金青年基金項目、面上項目各1項,主持上海市自然科學基金項目面上項目1項,主持教育部重點實驗室開放課題項目1項,主持上海市重點課程項目。2019年獲上海對外經貿大學科研標兵稱號,2022年入選上海市“曙光計劃”項目, 2023年入選上海市“東方英才”青年人才項目。 現擔任中國現場統(tǒng)計研究會理事、中國現場統(tǒng)計研究會教育統(tǒng)計與管理分會副理事長。

張日權,上海對外經貿大學統(tǒng)計與數據科學學院院長,教授,博士生導師。主持了多項國家自然科學基金、上海市科委重點項目、教育部博士點基金、國家統(tǒng)計局重點項目等20多項。在國內外權威期刊發(fā)表學術論文230余篇,SSCI\SCI收錄論文160余篇,出版專著4部,教材3本,獲得授權發(fā)明專利7項。獲得上海市育才獎、上海市自然科學獎、上海市教學成果獎等獎勵或榮譽稱號20多項。
