本文刊載於教育部《學術倫理電子報》2020 年八月 / 第 1 期
作者:潘璿安
目前坊間有許多相似度比對系統,例如 iThenticate、Turnitin、快刀—中文論文原創性比對系統,以及 SYMSKAN 華藝文獻相似度檢測服務等。其中 Turnitin 應該是在比對英文文稿中使用率較高的系統,因此本文以 Turnitin 為例,提醒使用者一些在判讀相似度比對報告時須要留意的事項。
當研究者、教師與學生在上傳文稿至 Turnitin 後,系統會在數分鐘內計算出文稿與網路公開資料、學術論文和過去上傳作業的相似度百分比數值,並標記相似的字詞與語句,同時提供原始來源。Turnitin 協助研究者、教師與學生辨識出未充分改寫的內容與潛在的抄襲,也有助於提升論文的原創性。
但需要留意的是,若單憑相似度百分比數值去判定是否抄襲,會有誤判的風險。因此在解讀相似度比對的報告時,應記得:相似度高不等於就是抄襲。相似度比對系統是利用文字的組成結構,去比對與其他著作的雷同程度,但學術寫作是靈活且具有領域差異的,因此有時還是會發生精準度不足的情況。以下例舉一些常見的狀況說明。
情況 1:有時會比對出一些不具抄襲意義的詞彙與文句,如:長字詞的專有名詞、常用詞句、機構名稱、參考書目等)。當這些不具抄襲意義的詞彙、書目資料等,反覆出現在文稿中時,無形中就可能提高相似度百分比數值。以下面這篇文章為例,每當提到專有名詞 responsible conduct of research(負責任的研究行為)時,該詞彙就會被標記與其他論文雷同。
另以下面這篇文章為例,當引用到團體名稱「科技、工程與公共政策委員會」(Committee on Science, Engineering, and Public Policy)的原文時,委員會的名稱也會被註記為雷同。
情況 2:寫作時有時需要大量原文引述(quote)他人的文字,但即便使用者能在 Turnitin 中設定排除引用資料,仍可能因寫作格式的因素,使系統無法偵測到原文引述的段落,進而被畫記為高相似度,甚至增加相似度百分比數值。以下面這份原文引述美國國家衛生研究院(NIH)的資料為例,雖然在檢測時已設定為排除引用資料,但還是被系統標記為高相似度。
情況 3:簡單而言,Turnitin 的技術是將師生上傳的文稿,與網路公開資料、個人上傳作業與論文,以及資料庫(包括開放取用期刊,重要學術資料庫 Elsevier、Springer & Nature、Wiley Blackwell、Taylor and Francis 與 IEEE 等)進行比對,並標記雷同處,及計算雷同處占全文的百分比。然而,在解讀百分比數值時,也別忽略了查證著作間發表時序的步驟。舉例來說,有時我們上傳至 Turnitin 的文稿是過去已發表或已出版的著作,它們已經在網路上公開一陣子,而不是當下才剛完成的作品。由於這些文稿在發表後,可能已經被其他人引用,此時若使用 Turnitin 去檢測原著,就可能因原著與他人後來發表的著作雷同,而產生較高的相似度百分比數值。因此,當上傳的文稿被標記與其他著作雷同時,也別忘了確認著作間的發表時序。
情況 4:有一種可能的情況是,作者曾將寫作中的草稿上傳至 Turnitin 比對,但因為沒有將草稿排除在資料庫外,使 Turnitin 的資料庫收錄了該草稿。若後來再比對完稿時,可能會比對到先前上傳的草稿,使得百分比數值提高。Turnitin 表示,此時可請當初上傳草稿的人,向原公司申請自資料庫中刪除草稿。
情況 5:各公司出產的相似度比對軟體,都有各自用於比對相似度的演算法,用於比對的資料庫也不盡相同。因此,同一篇論文經不同系統所比對出來的百分比數值,可能會不同。此外,即使比對的結果顯示高原創性,也不代表絕對沒有抄襲;有可能是被抄襲的著作沒有(或尚未)收錄至比對用的資料庫,也未曾在網路上公開發表過,因此比對系統無法檢測到相似性。
綜合而言,任何相似度比對系統,都只是輔助檢測的科技工具;它們利用程式技術替文稿標記出原創性「可能」不夠高的詞彙與段落,但這些詞彙與段落是否真的構成抄襲事實,還需仰賴人工進行逐一檢查。換句話說,在檢驗文稿的原創性時,使用相似度比對系統只是個開始,後續還是要進行人工比對,以確認雷同處的實際內文和文字結構,以及釐清著作間的出版時序等細節。相似度比對系統與人工比對兩者間相輔相成,在檢查論文的原創性時缺一不可。
建議引用格式:潘璿安(2020,八月)。判讀相似度比對報告時的提醒-以 Turnitin 為例。教育部學術倫理電子報,1,2–5。原文連結
(本文僅代表作者個人觀點,不代表教育部立場)