電子報專文 | 判讀相似度比對報告時的提醒 — 以 Turnitin 為例

本文刊載於教育部《學術倫理電子報》2020 年八月 / 第 1 期
作者：潘璿安

目前坊間有許多相似度比對系統，例如 iThenticate、Turnitin、快刀—中文論文原創性比對系統，以及 SYMSKAN 華藝文獻相似度檢測服務等。其中 Turnitin 應該是在比對英文文稿中使用率較高的系統，因此本文以 Turnitin 為例，提醒使用者一些在判讀相似度比對報告時須要留意的事項。

當研究者、教師與學生在上傳文稿至 Turnitin 後，系統會在數分鐘內計算出文稿與網路公開資料、學術論文和過去上傳作業的相似度百分比數值，並標記相似的字詞與語句，同時提供原始來源。Turnitin 協助研究者、教師與學生辨識出未充分改寫的內容與潛在的抄襲，也有助於提升論文的原創性。

但需要留意的是，若單憑相似度百分比數值去判定是否抄襲，會有誤判的風險。因此在解讀相似度比對的報告時，應記得：相似度高不等於就是抄襲。相似度比對系統是利用文字的組成結構，去比對與其他著作的雷同程度，但學術寫作是靈活且具有領域差異的，因此有時還是會發生精準度不足的情況。以下例舉一些常見的狀況說明。

情況 1：有時會比對出一些不具抄襲意義的詞彙與文句，如：長字詞的專有名詞、常用詞句、機構名稱、參考書目等)。當這些不具抄襲意義的詞彙、書目資料等，反覆出現在文稿中時，無形中就可能提高相似度百分比數值。以下面這篇文章為例，每當提到專有名詞 responsible conduct of research（負責任的研究行為）時，該詞彙就會被標記與其他論文雷同。

另以下面這篇文章為例，當引用到團體名稱「科技、工程與公共政策委員會」（Committee on Science, Engineering, and Public Policy）的原文時，委員會的名稱也會被註記為雷同。

情況 2：寫作時有時需要大量原文引述（quote）他人的文字，但即便使用者能在 Turnitin 中設定排除引用資料，仍可能因寫作格式的因素，使系統無法偵測到原文引述的段落，進而被畫記為高相似度，甚至增加相似度百分比數值。以下面這份原文引述美國國家衛生研究院（NIH）的資料為例，雖然在檢測時已設定為排除引用資料，但還是被系統標記為高相似度。

情況 3：簡單而言，Turnitin 的技術是將師生上傳的文稿，與網路公開資料、個人上傳作業與論文，以及資料庫（包括開放取用期刊，重要學術資料庫 Elsevier、Springer & Nature、Wiley Blackwell、Taylor and Francis 與 IEEE 等）進行比對，並標記雷同處，及計算雷同處占全文的百分比。然而，在解讀百分比數值時，也別忽略了查證著作間發表時序的步驟。舉例來說，有時我們上傳至 Turnitin 的文稿是過去已發表或已出版的著作，它們已經在網路上公開一陣子，而不是當下才剛完成的作品。由於這些文稿在發表後，可能已經被其他人引用，此時若使用 Turnitin 去檢測原著，就可能因原著與他人後來發表的著作雷同，而產生較高的相似度百分比數值。因此，當上傳的文稿被標記與其他著作雷同時，也別忘了確認著作間的發表時序。

情況 4：有一種可能的情況是，作者曾將寫作中的草稿上傳至 Turnitin 比對，但因為沒有將草稿排除在資料庫外，使 Turnitin 的資料庫收錄了該草稿。若後來再比對完稿時，可能會比對到先前上傳的草稿，使得百分比數值提高。Turnitin 表示，此時可請當初上傳草稿的人，向原公司申請自資料庫中刪除草稿。

情況 5：各公司出產的相似度比對軟體，都有各自用於比對相似度的演算法，用於比對的資料庫也不盡相同。因此，同一篇論文經不同系統所比對出來的百分比數值，可能會不同。此外，即使比對的結果顯示高原創性，也不代表絕對沒有抄襲；有可能是被抄襲的著作沒有（或尚未）收錄至比對用的資料庫，也未曾在網路上公開發表過，因此比對系統無法檢測到相似性。

綜合而言，任何相似度比對系統，都只是輔助檢測的科技工具；它們利用程式技術替文稿標記出原創性「可能」不夠高的詞彙與段落，但這些詞彙與段落是否真的構成抄襲事實，還需仰賴人工進行逐一檢查。換句話說，在檢驗文稿的原創性時，使用相似度比對系統只是個開始，後續還是要進行人工比對，以確認雷同處的實際內文和文字結構，以及釐清著作間的出版時序等細節。相似度比對系統與人工比對兩者間相輔相成，在檢查論文的原創性時缺一不可。

建議引用格式：潘璿安（2020，八月）。判讀相似度比對報告時的提醒－以 Turnitin 為例。教育部學術倫理電子報，1，2–5。原文連結

（本文僅代表作者個人觀點，不代表教育部立場）

Share this: