基于感知的學術期刊評價方法研究

時間:2022-07-27 03:15:15

導語:基于感知的學術期刊評價方法研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

基于感知的學術期刊評價方法研究

1引言

國外學術期刊評價中最常用的兩種方法分別是基于引文(citation-based)的評價法和基于感知(perception-based)的評價法【1】?;谝牡脑u價法通常使用影響因子、特征因子、h指數(shù)及其衍生指標評價期刊,主要優(yōu)點是定量與客觀,但指標片面性、自我引用、期刊操縱引用、不適合人文社科領域期刊等問題也使其飽受爭議【2】。近幾年采用同行評議對科學研究過程和成果的規(guī)范性、科學性和創(chuàng)新性等進行獨立學術評判已經逐步成為學界通行的做法【3】,如果將其與引文評價法結合,將進一步提升期刊評價的信度與效度。專家調查法作為同行評議的一種重要形式,在國外一般被稱為基于感知的評價方法或陳述性偏好(statedpreference)評價【4】,它利用同行的意見來評價學術期刊,可以反映某一特定學科或領域內具有代表性的大量專家的集體判斷和累積意見。此類方法通常向一組專家發(fā)放調查問卷,請他們根據(jù)自己的感知并結合一定的判據(jù)對期刊評分、排序或分類,評價結果一般通過聚合所有受訪者的評價情況獲得。目前,國內在期刊管理和評價領域的類似研究多集中于前的同行評議【5-6】,缺少對專家問卷調查類期刊評價方法研究。國外對基于感知的期刊評價方法類的研究較多,但對這些方法進行詳細分析的綜述類研究尚不多見。Walters【7】介紹了研究人員和圖書館員在開發(fā)或使用基于調查的期刊排名時應考慮的五個關鍵問題,但該研究主要基于2014年以前文獻,粗略地對國外基于感知的期刊評價框架進行了介紹,缺乏對該方法的一些具體特征和問題的詳細論述。本文將以國外文獻為基礎,對基于專家問卷調查的感知類期刊評價方法近十五年來(2005-2019)的文獻進行梳理,總結此類方法的基本特征,找出現(xiàn)有研究存在的問題,并提出相應的建議,以求為國內相關研究和實踐的進一步完善提供參考。

2文獻檢索與篩選

2019年3月,作者以WebofScience為數(shù)據(jù)源,檢索與“survey-based”、“perception-based”、“statedpreference”、“ex⁃pert-based”等相關的期刊評價類英文文獻,時間跨度限定為2005-2019年,檢索結果剔除不相關內容后,導入文獻管理軟件NoteExpress3.2中,得到129篇英文題錄。隨后在Pro⁃Quest、EBSCO、Emerald、Scopus等全文數(shù)據(jù)庫中進行類似檢索,將刪除不相關內容后同樣導入NoteExpress3.2,合并去重后共得到357篇英文題錄。通過詳細閱讀這些題錄中的標題和摘要信息進行初步篩選,保留了103項題錄。本文的目的是要對評價方法進行梳理,要求所分析文獻中評價過程和評價要素的闡述應盡量完整,故刪除了部分評論性研究、論文同行評議類研究以及僅用已取得的專家調查結果與引文分析法的評價結果進行比較或匯總類的研究,據(jù)此共剔除了28項研究。對剩下的75項研究下載全文閱讀,并以參考文獻為線索,新增加39項研究,反復閱讀后,最終獲得明確使用專家問卷調查法進行期刊評價且詳細說明評價過程的30項研究。分析過程圍繞基于感知期刊評價中的四個主要環(huán)節(jié):期刊來源、受訪者樣本、評價過程及評價判據(jù)展開。

3分析結果

3.1期刊來源。被評價的期刊通常根據(jù)學科或研究領域選擇,但即使該學科的邊界已經比較明晰,期刊列表選擇也不是一件簡單的事情。據(jù)對30項研究分析后發(fā)現(xiàn),研究者一般通過三種方式確定評價期刊列表。(1)封閉式期刊列表。即由研究者預先提供完整的期刊列表,受訪者僅對列表內期刊進行評價。30項研究中有13項采用該方式,研究者在選擇期刊時一般遵循兩類原則:一類研究者認為期刊覆蓋面要廣,只有這樣才能對某一領域期刊進行全面評價【1】,所以多數(shù)研究(7項)會以之前研究為基礎,對其中出現(xiàn)的期刊進行匯總、去重、剔除??炔僮?,然后在搜索引擎和一些數(shù)據(jù)庫中對新創(chuàng)期刊進行檢索【8-9】,從而保證期刊列表的全面性,也有研究者直接使用某個(些)機構最新的期刊排名列表【10】;另一類研究者認為應優(yōu)先選擇重要期刊進行評價,一般采用篩選的方法,如從以前研究中篩選排名靠前或受訪者熟悉度普遍較高的期刊、請專家或與同事討論確定達成共識的期刊【11】、選擇被重要數(shù)據(jù)庫收錄的最有影響力的期刊【12】等。封閉式期刊列表有利于研究者了解受訪者對特定期刊的感知意見,但預先提供的期刊列表容易導致一些新創(chuàng)期刊或新領域、跨領域期刊未被列入而影響其全面性。另外,根據(jù)滿足感理論,即使是積極性很高的人也可能在對較長列表排名過程中逐漸失去注意力,變得心煩意亂或疲憊【13】,因此如果提供的列表過長可能會影響回復率,進而影響評價效果。此外,預設的列表還可能使部分受訪者不得不去評價自己不熟悉的期刊。(2)開放式期刊列表。即研究者不預設期刊列表,完全由受訪者提供,有4項研究采用該方式。研究者一般在說明評價判據(jù)后,采用開放式問題,通過無輔助回憶技術(unaid⁃edrecalltechnique)【14】或制高點知名度(top-of-mindaware⁃ness)【15】技術請受訪者依次列出符合標準的期刊名稱,在問卷處理時,研究者會通過查閱現(xiàn)有期刊目錄【16】或網(wǎng)絡檢索等途徑對受訪者提供的期刊進行核實。開放式期刊列表有助于給予受訪者最大的靈活性,最大限度地減少因期刊呈現(xiàn)順序而導致的順序效應偏差(order-effectbias)【13】和路徑依賴(pathdependency)【17】等問題,確保那些在先前的研究中未出現(xiàn)但又可能是新創(chuàng)的該領域期刊不被排除。但通過受訪者提供的期刊很可能是那些最常被他們使用和閱讀的期刊,可能存在近因性偏差(recencybias)【18】,且由于受訪者知識背景不同,可能會獲得一些非本領域期刊,或者產生本領域個別重要期刊被遺漏的情況,期刊名稱和評價結果也會非常分散。由于期刊更名或名稱相近、不規(guī)范簡稱等原因還會出現(xiàn)期刊名稱被張冠李戴的情況,增加問卷統(tǒng)計難度。(3)半開放式期刊列表。即介于上述兩種方式之間,采取封閉式列表和開放式列表相結合,由研究者預先提供部分被評價期刊,受訪者對這些期刊進行評價的同時還可以增加一定數(shù)量自己認為重要的期刊,30項研究中有13項采用了該方式。半開放式期刊列表可以有效解決封閉式和開放式列表的不足,但研究者和受訪者提供的期刊比例還需視評價實際情況而定。正如大量研究中討論的那樣【19-20】,考慮到不同學科背景、期刊年齡、發(fā)行量、地域影響等因素,決定哪些期刊被包括在內是復雜且困難的。3.2受訪者樣本。受訪者是基于感知的期刊評價中最重要的因素,他們既需要有豐富的學術經驗和廣博的領域知識,還需要緊跟領域前沿,掌握熱點方向。選擇合適的受訪者和一定規(guī)模的受訪者樣本容量對保證評價效度至關重要。在30項研究中,研究者結合自己的研究目的和評價判據(jù),主要通過以下三種渠道招募受訪者。(1)隨機選擇的期刊作者。有8項研究以本領域期刊作者作為受訪者,此類受訪者一般被稱為活躍研究人員【10,21】,通常最近幾年在該領域的某些期刊上發(fā)表過論文,研究者認為他們對領域知識和期刊的認知方面更為前沿【10】。主要包括高校教師、從業(yè)人員和學生等群體,他們的電子郵件等信息可通過期刊直接獲取,比較便利,研究者邀請的目標受訪者樣本一般在千人以上規(guī)模。在Serenko等的多項研究中均以這種方式選擇受訪者樣本【1,8,13】。(2)行業(yè)組織、學術機構的研究人員。有12項研究通過國際交流會議、學術機構網(wǎng)站、國際期刊編輯委員會以及有關國家的學術和從業(yè)者協(xié)會邀請受訪者,受訪者一般為這些組織或機構的正式成員,身份包括高校教師、學術管理者或從業(yè)人員等。(3)高校教師。有10項研究專門以高校群體為調查對象,受訪者一般為高??蒲腥藛T和教育工作者,招募渠道主要有兩種,一種從各學院的網(wǎng)站獲取名單和信息,另一種從一些國際或地區(qū)學術組織成員中篩選有教師身份的人員【22】。一項有效的問卷調查研究必須包括一個足夠豐富的受訪者樣本,這樣才能真正代表期刊的利益相關者意見,否則即使樣本容量足夠大,類別不足也無法全面解釋不同專家群體之間可能存在的明顯感知差異。30項研究中,回收到的問卷數(shù)量從11到1695不等,平均問卷數(shù)量315份,中位數(shù)為229份。多數(shù)研究者對不同身份群體或不同人口特征(國別、性別、學歷、職稱、職務等)的受訪者評價數(shù)據(jù)進行了分組統(tǒng)計檢驗,分析不同地區(qū)、不同學術等級、不同子領域的受訪者評價結果是否有差異,以發(fā)現(xiàn)偏差或證實假設,為后續(xù)研究采取措施減少偏差提供參考。三類受訪者樣本中,期刊作者樣本覆蓋的群體范圍最廣,但其中作為學術新人的學生作者群體的領域知識的廣度和深度較那些資深研究人員還有很大的差距,對期刊的熟悉程度可能也整體偏低。受訪者樣本到底怎么選擇具體還取決于研究者的評價目的和評價判據(jù),每類群體受訪者參與評價的側重點也會有所不同,這在30項研究中并未發(fā)現(xiàn)有價值的規(guī)律。30項研究普遍采用便利抽樣或滾雪球抽樣【14】招募受訪者,僅少數(shù)幾項研究采用了作者隨機抽樣【10】、過采樣(over-sampling)【23】等方式。對期刊作者的隨機抽樣可被理解為近似概率抽樣,但研究者多選擇了“高質量”期刊中的作者群,使得樣本的代表性存疑。因為盡可能保證受訪者的代表性是該類研究具有較高信度與效度的前提,否則必然影響最終評價結果。3.3評價過程。在前兩點的基礎上,期刊評價的組織管理程序也十分重要,這是一個將受訪者與期刊緊密結合的過程,選擇的評價方式、采用的測量工具、把握的評價原則等都會影響對受訪者感知的準確測量。(1)評價形式。30項研究中除了2005年和2006年有3項研究采用郵寄紙質問卷外,其余27項均采用了網(wǎng)絡調查,其中Zsidisin等和Meese等的研究以傳統(tǒng)紙質現(xiàn)場調查和網(wǎng)絡在線調查兩種形式進行??梢婋S著計算機技術和網(wǎng)絡技術的發(fā)展,期刊評價領域的網(wǎng)絡問卷調查已逐步取代傳統(tǒng)紙質調查,主要原因在于前者方便快捷,各種在線問卷軟件及數(shù)據(jù)統(tǒng)計軟件的出現(xiàn)有利于研究者快速回收問卷、精確統(tǒng)計和分析數(shù)據(jù),既節(jié)約了人力、時間和郵寄成本,又大大減少了數(shù)據(jù)錄入環(huán)節(jié)的錯誤,而且在線問卷的鏈接跳轉功能也為分類問卷和個性化問卷提供了便利。多數(shù)研究者通過發(fā)送帶有邀請函和問卷鏈接的電子郵件邀請受訪者參與在線調查,為了確保公平參與,在線調查程序一般只允許每個IP地址填寫一次問卷。Smith等【24】和Reniers等【25】等幾項研究則直接使用電子郵件發(fā)送問卷,由受訪者回復。有6項研究使用了專業(yè)的SurveyMonkey網(wǎng)絡調查平臺或SNAP調查軟件,大大提高了調查效率。(2)測量工具。一般采用Likert量表或“前五法”(TopFiveMethod)【26】,請受訪者對期刊進行打分、排序,也有少量研究請受訪者對期刊進行了分類。共有20項研究采用了Likert量表,典型的Likert量表一般由研究者提出一個陳述,如“這本期刊的論文對XX領域有重要貢獻”,要求受訪者根據(jù)認同程度進行選擇。還有一類量表與Likert量表類似,請受訪者根據(jù)一定的判據(jù)采用5分或7分制對每本期刊打分,本文也將其歸入Likert量表。20項研究中有8項使用了5分制,8項使用了7分制,此外還有4項分別采用了9分制、10分制和11分制。在分析問卷數(shù)據(jù)時,一般假設Likert量表是一種區(qū)間測度(intervalscale),可計算平均值和標準差,期刊的排名一般基于得分平均值,也有部分研究按照期刊得分的眾數(shù)進行排序【20】。一般來說,7分制與5分制在可信度方面沒有明顯差異,只是前者比后者有更大的區(qū)分度,可提供更細的評價粒度,但如果量表的評級過多,會增加受訪者的答卷負擔,影響評價質量,所以還需綜合考慮受訪者的工作量和期刊數(shù)量決定具體使用幾分量表。有7項研究采用了“前五法”或類似方法進行測度?!扒拔宸ā痹谄诳u價領域較早由Kohl等【26】使用,即通過開放式問題、無輔助回憶或制高點知名度等形式請受訪者按順序列出五種最具學術貢獻【23】(或對教學科研最重要,或受訪者最常閱讀或投稿【19】)的期刊,對不同位次賦分后匯總排序;有的研究僅要求受訪者列出前五期刊即可,無須排序,研究者會根據(jù)期刊被提及的總頻次進行排名,相似的方法還有“前三法”或“前十法”。Kohl認為,當內部共識度低于40%時,無序的“前五法”可能不可靠【26】。(3)對不熟悉期刊的處理。受訪者對期刊的熟悉程度是多數(shù)研究者首要考慮的問題。為保證評價效度,一個很重要的原則就是不強迫受訪者評價其不熟悉的期刊。有16項研究對受訪者是否熟悉被評價期刊進行了測量。為確保受訪者不會被迫在信息不足的情況下作出決定,在Nisonger、Shewchuk【27】、Lowry、Gorman等的幾項研究中,受訪者可以在不查閱任何知識的情況下,只評價他們熟悉的領域和了解的期刊,而對不熟悉的期刊進行標注或將打分項留空。有的研究在每個問題后面設置“不知道”或“不熟悉”選項【20】,有的研究專門設置一個問題測量受訪者對期刊熟悉度【28】,也有研究將受訪者對期刊的熟悉程度作為計算期刊整體影響力或重要性的重要依據(jù),認為期刊的影響力或重要性既取決于受訪者對期刊的評價力度,也取決于受訪者對期刊的熟悉程度。還有研究者特意選擇受訪者熟悉度較高的期刊,如Garand等研究中僅納入了之前研究中至少被20%的受訪者熟悉的期刊,Shewchuk等剔除了Williams第一階段研究中受訪者普遍不了解的期刊,這為提高受訪者對期刊的熟悉度起到了一定作用,但也極易引入評價偏見,如對一些新創(chuàng)期刊或新領域期刊不利。3.4評價判據(jù)評價判據(jù)是受訪者對期刊評價的判斷依據(jù)或標準,對判據(jù)的使用、定義和權重分配是評價必須解決的關鍵問題。(1)判據(jù)的使用。30項研究中,質量(10項)、影響力(8項)、重要性(8項)、貢獻(7項)、聲望(3項)、閱讀偏好(2項)、投稿偏好(2項)、價值(1項)、相關性(1項)等術語都有被作為受訪者對期刊的判斷尺度。這些判據(jù)中,有的只使用一項進行評價,如請受訪者列出他們認為的最有影響力的學術期刊【14】、根據(jù)期刊對研究和教學的重要性評分【20】、評價期刊對某領域理論和實踐的貢獻程度【28】,或者直接對期刊質量打分【2,22】。有的研究以幾項判據(jù)結合進行評價,如以受歡迎度、相關性、學術貢獻以及投稿偏好四項指標作為期刊質量維度,從期刊總體影響力、熟悉程度和論文質量以及閱讀和投稿偏好幾個方面排名期刊【19】,從質量評價、熟悉度、影響三個維度比較不同國家對期刊評價的差異,從質量、效率和影響力三方面對期刊綜合排名等。(2判據(jù)的定義。多數(shù)研究雖然提出了評價判據(jù),但未做具體說明或定義,把對判據(jù)的理解交給受訪者,僅有少量研究對判據(jù)有簡單定義,如將期刊質量定義為“期刊的論文對知識有重要貢獻”【29】和“在研究中具有重要或影響地位的程度”【9】,有研究者認為可以用質量標準(編輯委員會和審稿人定義的提交論文的科學要求)和科學質量(實際發(fā)表在期刊上的論文所達到的質量)作為測度期刊質量的兩個維度【30】。Parameswaran等【29】在其研究中將期刊效率定義為“該刊審稿流程及時”,期刊影響定義為“在該刊發(fā)文對學者的生涯非常有益”。Ku等認為受歡迎程度是指“期刊被受訪者認可的程度”,相關性是指“發(fā)表的論文內容與電子商務之間的相關程度”,學術貢獻被定義為“期刊推進電子商務研究進展的程度”。(3)判據(jù)的權重。人們在評價時對不同評價判據(jù)的重視程度也不同。有研究顯示【31】,市場營銷學者個人認為期刊評價判據(jù)的權重分配是對理論的貢獻(36%)、期刊聲望(26%)、對實踐的貢獻(24%),最后是對教學的貢獻(14%)。而在另一項研究中,從事供求管理研究的受訪者則認為評價判據(jù)的重要程度可以按照與研究相關性、期刊質量、與從業(yè)者相關性和期刊聲譽的順序排序。Rogers等【32】的研究則顯示,在商業(yè)管理交流學界,影響期刊質量判斷的最有力的判據(jù)是該領域資深研究人員的感知,其次是期刊被主要索引的收錄情況,稿件接受率列第三位,其他因素依次為專業(yè)協(xié)會的認可、影響因子、期刊國際排名、期刊年齡、編輯聲譽和編委會成員情況等。可見,不同領域、不同受訪群體對評價判據(jù)的重要性認知存在明顯差異,在一些子群體中也會存在區(qū)域差異,且個人對特定判據(jù)的權重感知與其機構適用的權重也會有所不同。

4問題討論

通過上述分析可以發(fā)現(xiàn),國外基于感知期刊評價方法已經形成了比較穩(wěn)定的、行之有效的做法,在被評價期刊、受訪者、評價過程、判據(jù)等評價要素方面已具備了明顯特征,這些對感知類評價方法的發(fā)展將起到重要促進作用。但現(xiàn)有研究在一些方面仍然不太完善,研究的規(guī)范性和方法的科學性仍有待加強,需要在后續(xù)研究或實踐中深入討論。4.1評價期刊的分組。首先,在學科高度融合發(fā)展、跨學科領域越來越多的新形勢下,現(xiàn)有研究在細分期刊領域方面仍有欠缺。每一學科都由若干分學科、分領域、子領域或新分支構成,對某一學科的所有期刊進行綜合排名非常不利于小領域和新生領域期刊,但子領域劃分過細也容易產生受訪者樣本量過少的問題。30項研究中僅有三分之一對期刊進行了細分評價,劃分的依據(jù)包括期刊定位、作者群體、閱讀群體、編委會組成、引文領域等,也有研究者以請專家打分或討論等方式確定期刊分組。而其余多數(shù)研究尤其在像政治學、金融、農業(yè)經濟、人工智能、法律等比較大的領域中提供的列表有近百種期刊,既有綜合期刊又有專業(yè)期刊和新創(chuàng)期刊,即使考慮了受訪者的研究領域分布也無法完全保證評價的公平性,結果會導致一些長期存在的綜合期刊一直占據(jù)排名前列,而那些跨學科或新領域的期刊在期刊列表中的評級往往不如意,或者被排在靠后的位置。其次,期刊的年齡、學科屬性及發(fā)行特征等會直接影響受訪者的熟悉程度,間接導致不平等的參與結果。Serenko等【17】的研究發(fā)現(xiàn),期刊年齡和期刊評價得分存在顯著正相關性,證實了期刊年齡對期刊排名的影響。與更年輕、專業(yè)化更強的期刊相比,那些更成熟、更通用的期刊自然擁有更廣泛的讀者群和更大的引用基礎,同時,更大的發(fā)行范圍、發(fā)行量、發(fā)文量和更短的出版周期等會為作者創(chuàng)造更多的發(fā)文機會,也會使更多的論文被讀者閱讀,這會讓以作者和讀者為主要群體的多數(shù)受訪者更加了解這些期刊。而很多研究已經發(fā)現(xiàn),受訪者傾向于給其熟悉的期刊打高分,期刊熟悉度與評價結果之間存在很強的相關性【3】,所以這必然會導致那些出版時間久、綜合度高、發(fā)行量和發(fā)文量大、出版頻繁的期刊被排到較高的位置,但卻不一定具有相應的整體質量。建議在今后的期刊評價研究和實踐中應進一步細分評價領域,并按細分領域對評價結果單獨排序,對一些綜合類的期刊,可采用主題聚類技術【34】將其歸屬到某一領域進行評價。在期刊評價和分組過程中也應綜合考慮期刊的年齡、學科屬性及發(fā)行特征等因素,進行同類評價或通過加權、樣本折算等方法來體現(xiàn)評價公平性。部分研究在期刊領域細分方面已經開始了積極探索,如Serenko等在其幾項研究【8,28,35】中不斷對知識管理和智力資本兩個領域期刊細分評價。McKercher等認為有必要根據(jù)受訪者各自的研究領域對期刊進行分組評價,其在酒店和旅游領域的期刊評價研究中,請旅游學者與酒店學者分別對各自領域的期刊打分,以更準確地評價專業(yè)期刊在子學科的相對重要性,其后的Law、Gursoy等研究中也在延續(xù)這種分組評價的做法。4.2受訪者偏見的影響。基于感知的專家問卷調查研究建立在這樣的假設之上:受訪者可以相對準確地判斷每份期刊的質量,并將其反映在他們的評價結果中。但受訪者難免會受到一些個人偏見的影響,使他們無法客觀感知期刊的真實水平,大量的偏見積聚會對最終結果產生嚴重干擾?,F(xiàn)有研究中對受訪者偏見的預防、測度和控制工作還不是很到位,常見的受訪者偏見有以下幾類:(1)曝光效應(ex⁃posureeffect)。受訪者更為熟悉的期刊往往會得到更高的分數(shù),最終的排名會在一定程度上受到受訪者對期刊的熟悉度或興趣度的影響,而不僅僅是它的質量、對該領域的理論或實踐貢獻等。因為曝光效應增強了他們對期刊質量的認知,與不太熟悉的期刊相比,更為熟悉的期刊標題使個體形成了一套有利的認知和情感聯(lián)系,這些聯(lián)系在他們做出排名決定時會被納入考慮【1】,他們的決定只是受到潛意識刺激的影響,這種刺激減少了排名過程中的認知負荷【28】。(2)出版偏見(publicationbias)。在特定期刊上發(fā)表過論文的受訪者比其他受訪者更有可能給該刊打高分,因為人們一般會為自己在哪里發(fā)表過論文而感到自豪【22】。有研究證實,那些向期刊投稿的受訪者對期刊的評價平均高出那些沒有投稿者0.32分【30】。也有研究發(fā)現(xiàn),盡管活躍的金融研究人員并不偏向于高估他們有發(fā)文的期刊質量,但偏向于低估他們沒有發(fā)文的期刊質量【23】。(3)順序效應偏差(order-effectbias)。即受訪者容易高估期刊列表開頭的期刊而低估處于列表末尾的期刊,這種偏見極大地有利于那些位于列表前部的期刊【13】。(4)其他偏見。包括地域偏見、文化和語言偏見、領域偏見、機構偏見等,這對那些在受訪者樣本選擇上地域集中、機構同質、身份相近的研究來說,很容易產生系統(tǒng)性偏差,評價結果的可信度將大打折扣。以上這些偏見在目前的研究中普遍和客觀存在,特別在調查都是匿名進行的情況下,這些問題如果得不到有效解決,將會成為人們批判專家調查法的有力證據(jù),但遺憾的是,目前絕大多數(shù)的研究對這些偏見并未給予足夠的重視,這也提醒我們,單一方法的簡單期刊排名應被謹慎使用。建議采取有效措施識別并控制上述感知偏見,提高評價技術的整體嚴謹性。這是一個系統(tǒng)性和協(xié)調性的工作,不是僅靠一項或幾項措施就能完美實現(xiàn)的,如僅控制曝光效應會降低受訪者對期刊的熟悉度,而在相應期刊上發(fā)表過論文又是受訪者熟悉期刊的重要渠道。受訪者樣本的選擇應在評價目的的指導下,嚴格遵守抽樣和統(tǒng)計程序規(guī)范,防止有偏采樣。應在評價時量化測量(如Likert量表)受訪者對期刊的熟悉程度【28】并識別其與期刊的詳細利益關系【30】(編委、審稿人、作者、讀者等),在數(shù)據(jù)分析時應在統(tǒng)計檢驗的基礎上,以保證評價效度為核心,綜合權衡這些因素,決定具體的偏見控制措施。研究者如果采用封閉式或半開放式列表向受訪者呈現(xiàn)被評價期刊,則應使用期刊名稱隨機或不同排列順序的列表以避免順序效應【13,17】。此外,對地域、文化、語言、領域、機構等的偏見需要通過增大樣本容量、隨機或概率抽樣等方法去解決,并在數(shù)據(jù)分析時進行必要的統(tǒng)計檢驗。4.3評價過程的規(guī)范。首先是網(wǎng)絡環(huán)境下如何應對低回復率的問題。網(wǎng)絡工具的出現(xiàn)為專家問卷調查帶來了極大便利,但大量研究表明,網(wǎng)絡調查的回復率通常會低于傳統(tǒng)調查方式【36】,可能產生有偏差的調查結果。當對調查作出回復的受訪者與被邀請參與但沒作出回復的受訪者間存在系統(tǒng)性偏差時,就會出現(xiàn)回復偏差(responsebias)。在30項研究中,除3項未說明回復率外,其他研究所報告的回復率普遍不高,其中3項以郵寄紙質問卷方式調查的回復率分別為21%、39%、53%,其余24項以網(wǎng)絡方式調查的研究雖然最高回復率為54%【30】,但回復率超過40%的僅有6項,平均回復率僅為30%。雖然上述數(shù)據(jù)不足以說明網(wǎng)絡調查方式的回復率普遍低于傳統(tǒng)調查方式,但較低的回復率對問卷調查的效率和質量影響卻是巨大的。部分研究者已經意識到了低回復率的影響,他們會在問卷發(fā)出一段時間后專門向那些未回復者單獨發(fā)出提醒。Zsidisin等關注了受訪者的回復偏差,比較了現(xiàn)場受訪者和第一波網(wǎng)絡受訪者與第二波網(wǎng)絡受訪者間的差異。其次是多數(shù)研究缺乏問卷預測試環(huán)節(jié)。對問卷進行預測試是調查類研究的基本要求,一方面為了發(fā)現(xiàn)問卷設計中是否存在一些措詞或表達含糊不清的情況,避免受訪者的理解與問題設計的初衷產生巨大差異;另一方面通過預測試收集的部分數(shù)據(jù)可以對問卷的信度、效度以及區(qū)分度等進行分析以及檢驗調查方案是否可行等。在30項研究中僅有McKercher、Gorman、Currie、Ku等4項正式問卷前在一定范圍內進行了預測試,其余研究均忽略或未報告預測試這一重要環(huán)節(jié)。建議采取一定措施提升網(wǎng)絡調查回復率并重視對問卷的預測試工作,使評價過程更加規(guī)范。人們不參與調查的原因可能是多方面的,如問題過于敏感,不信任研究者,某些群體可能過于忙碌而沒有時間參與,或者接受調查并不能帶來任何好處等,所有這些因素在研究者設計和組織問卷前都應仔細考慮,可以設置問卷聯(lián)絡人【2,14】、請學術機構負責人督促其成員參與問卷【23】、在問卷指導語中詳細說明問卷意義并承諾保密【16】以及給受訪者一定報酬等。在問卷回收過程中,研究者應及時對是否存在回復偏差進行測試,最常用的方法是比較受訪者和那些未回復者的人口統(tǒng)計學特征,由于匿名調查無法識別未回復者,因此研究者通常會將所獲樣本的特征與所研究人群的已知特征(如先前研究所發(fā)現(xiàn)的特征)進行比較。另一種方法是比較經多次提醒后不同波次(waves)受訪者的回答情況【37】,假定那些經一波甚至幾波提醒才作出回復的個體比那些在第一時間作出回復的個體更類似未回復者。通過這些方法,研究者可以比較不同波次受訪者群體的特征和回復情況,去預測未回復者是否會存在潛在地改變所收集的現(xiàn)有數(shù)據(jù)的情況,以決定是否繼續(xù)提醒以及是否有針對性地擴大樣本規(guī)模。4.4評價判據(jù)的理解。首先,期刊評價判據(jù)缺乏統(tǒng)一定義。在30項研究中評價判據(jù)呈現(xiàn)明顯多元化,但很少有研究對這些判據(jù)進行明確定義,少有的兩項研究中出現(xiàn)的部分判據(jù)定義與其他研究矛盾【9,29】,判據(jù)的使用缺乏一致性。例如,有的研究聲稱是在評價期刊質量,但實際卻在評價相關性或重要性【21】,有的混淆了質量、聲望和影響力,多數(shù)聲稱評價期刊質量的研究最終評估的是人們某方面的看法,而不是期刊的可測量質量【18】。其次,對判據(jù)的不同理解會產生不同的評價結果。這容易給那些依賴期刊排名的人們以及那些試圖將兩項或多項研究進行比較的人們帶來困惑,因為任何判據(jù)都有其優(yōu)缺點,對判據(jù)的自由解讀會導致任何人都無法令人信服地證明其結果的合理性。Smith等在其研究中介紹了2007-2008年澳大利亞LIS研究人員通過參與政府的“研究質量框架(RQF)”及其后續(xù)替代項目“澳大利亞卓越研究(ERA)”對LIS期刊進行排名的過程,由于LIS團體調查的期刊評價判據(jù)強調“重要性”,而澳大利亞教育科技部門文件中的判據(jù)強調“質量”,判據(jù)理解的不一致使雙方產生重大分歧。許多研究者刻意避開判據(jù)問題,直接將其交給了受訪者,對判據(jù)不做任何定義,讓受訪者自由解讀,并聲稱這是基于感知的研究的標準做法【12】。但人們的感知水平是有差異的,不同群體中的差異可能更明顯,缺乏統(tǒng)一的評價判據(jù)可能會導致同一領域期刊在不同受訪者樣本中的評價結果大相徑庭,受訪者可能會以不同的方式或從不同的角度回答同一項問卷,大大降低評價信度。第三,重要性與質量不能劃等號。期刊質量感知的地區(qū)差異以及學術機構管理者武斷使用某一期刊排名決定聘期和職務晉升等做法,使研究人員不得不在某些特定期刊上發(fā)文,這決定了對受訪者具有高影響的或重要的期刊不一定必然具有高質量,同一篇論文在一本期刊上發(fā)表可能被同行認為更重要,或者可能被認為比發(fā)表在另一本期刊上有更大的學術影響力。Shewchuk等請受訪者對16個決定期刊質量的因素按重要性進行排序,結果發(fā)現(xiàn),受訪者一般認為,有14項判據(jù)都非常重要,但這些判據(jù)中沒有一個能單獨解釋期刊重要性9%以上的變量,雖然受訪者使用這些判據(jù)來判斷期刊的整體質量,但這些判據(jù)自身與評價時分配給期刊的重要性卻無關。建議加強對期刊評價判據(jù)的研究,對期刊質量、影響力、重要性、貢獻、聲望、價值、相關性等出現(xiàn)頻次較高的術語進行清晰定義和辨析,明確界定其內涵和外延,對它們之間的關系和涉及的評價維度進行詳細說明,這是以專家調查法開展期刊評價的必要前提??蓞⒄杖~繼元教授提出的全評價理論模型【38】,根據(jù)這些判據(jù)的含義將它們具體落實到形式評價、內容評價和效用評價三個維度上,使評價更加規(guī)范。學術共同體應在廣泛討論的基礎上,加深對這些判據(jù)及其重要程度的理解,努力形成相對統(tǒng)一的價值觀和共識,為提升評價的整體認可度打好基礎。

5結語

通過對國外近十五年來30項使用基于感知方法評價期刊的研究進行分析后發(fā)現(xiàn),此類方法已經有了比較穩(wěn)定、有效的做法,各評價要素也已具備了明顯特征。被評價期刊來源包括從以前學者研究中提煉、從網(wǎng)絡搜索、從專家建議、從重要數(shù)據(jù)庫收錄中整理以及受訪者提供等,研究者一般通過封閉式、開放式和半開放式三種方式向受訪者呈現(xiàn)被評價期刊;受訪者樣本一般從隨機選擇期刊作者、從行業(yè)組織選擇研究人員以及從高校選擇教師等渠道獲得;從評價過程來看,2006年后所有研究均采用了網(wǎng)絡調查方式,多數(shù)研究采用Likert量表或“前五法”,請受訪者對期刊進行打分、排序或分類,考察受訪者對期刊的熟悉度是多數(shù)研究者首要考慮的問題;期刊質量、影響力、重要性、貢獻、聲望、閱讀偏好、投稿偏好、價值、相關性等的一項或幾項在研究中被用作受訪者對期刊的評價判據(jù)。多數(shù)研究雖然提出了判據(jù),但未做具體說明或定義,把對判據(jù)的理解交給了受訪者,認為每個受訪者在回答問題時都會有自己的定義。從不同評價判據(jù)的重要程度或權重來看,人們在評價時對不同評價判據(jù)的重視程度也是不同的。目前的研究還存在如下問題:在期刊分組方面,期刊領域細分仍有欠缺,期刊的年齡、學科屬性及發(fā)行特征等會直接影響受訪者的熟悉程度。受訪者會受到一些個人偏見的影響,如曝光效應、出版偏見、順序效應、地域偏見、文化和語言偏見、領域偏見、機構偏見等,但在目前的研究中這些并未得到足夠重視。評價過程的一些環(huán)節(jié)還不夠完善,普遍缺乏對問卷的預測試,對網(wǎng)絡環(huán)境下如何應對低回復率的問題缺乏足夠探討。在評價判據(jù)的理解方面,由于判據(jù)缺乏統(tǒng)一定義,受訪者對判據(jù)的不同理解將導致不同的評價結果。這些問題如果不能得到有效解決或控制,將大大減弱專家問卷調查法的可信度。建議在今后的研究和實踐中應進一步細分評價期刊領域,采取有效措施識別并控制受訪者感知偏見,有效提升網(wǎng)絡問卷回復率并重視對問卷的預測試工作,加強對期刊評價判據(jù)的研究,不斷提高基于感知的期刊評價方法的整體嚴謹性和規(guī)范性。雖然這項研究的重點是基于專家感知的期刊評價,但必須強調的是,本研究并不主張僅使用專家調查一種方法評價期刊,因為評價期刊的單一方法是不完整的,應綜合考慮多種可驗證的方法、多途徑的數(shù)據(jù)來源和多維度的評價視角。介于學術期刊的重要性,從學科利益相關者的角度理解學術期刊在科學發(fā)展中的作用至關重要,所有的評價方法都應該根據(jù)機構的需要和目標做出合理的判斷,從而形成服務于多種目的的期刊評價結果。

作者:胡紹君 鄭彥寧 成穎 單位:1.南京大學 2.東北石油大學圖書館 3.中國科學技術信息研究所