2013年2月16日 星期六

字典收詞總數


字典收詞總數的計算與比較

  
        在字典的書套或序言裡,常可看到出版者宣稱該字典收有多少詞條,它的數據是怎麼來的?到底可不可靠呢?還有,如果字典在這方面沒交代或數據可能不正確時,我們如何去判定同一類型字典的相對大小呢?


        以前各出版者都按照自己的方法來計算詞條數。比較老實的,只算詞首字(headword),也就是一個詞條段落裡最前頭的粗黑字;比較有生意眼的,就什麼都算,凡是粗黑體字、異體字、成語、辨義通通算;比較大膽的,則連算都沒算,找一本競爭對手的字典,印上一個比對方數據還大的數目就對了。後來美國政府的採購部門,為了公平起見,在徵詢許多出版商及字典編纂者之後,訂定了一套計算詞條的原則(見Landau, 1989, pp. 84-87note 12, p. 320; Jackson, 1988, p. 161):

1.  詞條裡的詞首字(headword)。
2.  詞條裡詞首字以外的其他詞類:例如,詞首字作為名詞,則同一段落裡,做動詞用時,亦算另一個詞條。
3.  顯現詞尾變化,並實際印出的字。
4.  衍生字(run-on derivatives)。
5.  成語或諺語。
6.  異體字(variants),但只能算一次。
7.  有定義的字首之下所列的字,而且這些字的字根本身在字典裡已有定義,如un-之下的undiluted (未稀釋的)unedible(不能食用的) unidiomatic(不道地的)等字。
8.  提供資訊的人名、地名等

從另外一方面來看,動詞裡如再分及物動詞與不及物動詞,還是只算一個詞條;列出的同義字,也不算;辨義的討論或一個字的不同意義的解釋,也不算。底下是一些例子(取自Landau, 1989, pp. 85-86;有些不相關的字形稍微做了改變):

parachute  (parÈ«  shoot)  n.  An apparatus of lightweight fabric that when unfurled assumes the shape of a large umbrella and acts to retard the speed of a body moving or descending through air.  --v.  ~chuted, ~chuting  v.t.  1. to land (troops, material, etc.) by means of parachutes.  --v.i. 2. to descend by parachute.  [ < F  <  para-  + chute ‘fall’] --parachutist  n.

six  (siks)  n.  1. the sum of five plus one; 6; VI.  2. a set of group of six members.  --at sixes and sevens.  in a state of confusion or indecision.  [ < OE]  --six  adj., pron.

在第一個例子裡,parachute可當名詞與動詞,此外有二個有詞尾變化的parachutedparachuting,另有一個衍生字parachutist,故總共有5個詞條,在第二個例子裡,six能當名詞、形容詞、代名詞,並有成語一個,故總共有4個詞條。現在英美出版的字典,詞條數的計算主要是根據這些原則。詞條總數,美國的字典稱之為number of entriesentry為編入條目的意思),而英國的則稱為number of referencesreference為參見條目的意思)。有的字典則含糊其詞,說成有200,000 definitions and references,需要注意的是這總數中含有定義的數目,因此會比依前述原則計算的詞條多很多。


        上述計算詞條的原則,現在應該廣為出版界所接受了,但一本字典宣稱收了100,000180,000字時,它是否真的一個一個的去算呢?還是根據抽樣統計出來的呢?絕大多數的字典提供的數字常常只到千位數,百位數以後都是零,而且常有almost「幾乎」, about「大約」, more thanover「多於」等模糊的字眼,因此這些數字應該只是大略的數據,大概是以抽樣方法統計收詞數的。第二版的Collins English Dictionary,據稱有162,000條,就是依據抽樣統計得來的(見Jackson, 1988, p. 161;第三版於1991出版,有180,000字)。


        抽樣統計的方式就是先在一本字典裡隨意取樣,如取其中的20頁,計算其詞條數,再取每頁的平均數,乘以字典總頁數,即得該字典的收詞總數。這個做法可列成一簡式如下:

取樣詞條數 / 取樣頁數  X  字典總頁數   收詞總數

比如說,有一字典計有1,000頁,取樣20頁,得1,600詞條數,則收詞總數為:

1,600 / 20  X  1,000  =  80,000

當然,取樣的比例愈大,收詞總數的正確性就愈高。取樣50頁絕對比20頁還要可靠。


        抽樣統計的數字既然只是一個大略數據,所以如果有二本字典收詞總數相差幾千而已,則很難判斷出哪一本收字較多。此外,上述的計字原則中,有一條規範的不是很清楚,現重述如下:

        3.  顯現詞尾變化,並實際印出的字。

這個原則並未說清楚詞尾變化是否必須是不規則的。關於詞尾變化,不同的字典有不同的做法。有的字典只列出不規則的變化,有的則不管規則與否全部都列。這方面有不同的做法,當然算起詞數也就有不一樣的結果了。底下以四本字典來說明這種狀況(下表中列出有詞尾變化的字共有三組,依序為動詞、名詞、形容詞,中間以空白一列隔開,每組中的第一個字的詞尾為一般規則變化,第二個字為比較複雜的規則變化,第三為不規則變化;表中NA,為 not applicable的縮寫,表示該字典在該項目下沒列出詞尾變化):





Collins COBUILD English Dictionary, 2nd ed., 1995

Oxford Advanced Learner‘s Dictionary, 5th ed., 1995

Longman Dictionary of Contemporary English, 3rd ed., 1995

Webster‘s New World Dictionary, 3rd college ed., 1995

kick (v)

kicks, kicking, kicked

NA

NA

NA

study (v)

studies, studying, studied

studied

studied, studying

studied, studying

do (v)

does, did, done, doing

does, did, done

did, done, does

did, done, doing



book (n)

books

NA

NA

NA

candy (n)

candies

NA

NA

-dies

goose (n)

geese

geese

geese

geese, gooses



smart (adj)

smarter, smartest

-er, -est

NA

NA

happy (adj)

happier, happiest

-ier, -iest

NA

-pier, -piest

good (adj)

better, best

better, best

better, best

better, best

詞尾變化的總詞數

19

11

8

12


這種不同做法造成的收詞數的差異,在上表九個字裡就非常大,如果放大到整部字典,其差異可能是幾千字甚或幾萬字,而且容易造成錯覺,會把收詞較少的字典誤以為收詞較多(見蔡清元, 1995, p. 104)。


        綜合上述,根據美國政府採購部門所研擬的算字原則,取樣統計而得的收詞總數,雖然可供參考,但須小心詮釋,讀者須注意不同字典所採用的原則是否一樣。很可惜的是,從來沒有一本字典說明它的收詞計算是根據什麼原則,又是如何統計出來的,因此無法知道想比較的幾本字典是否採相同的算字原則。如果讀者自己來動手,採取同一算字原則,應可較客觀計算出各字典的收詞總數及相對大小了。


        另外有一種方法也可以比較出字典的相對大小。那就是在不同的字典中選擇相同的兩字之間的部份,如 gravity 到 groovy 之間,把幾本比較的字典的不同的字加起來並列表出來,逐一統計哪一本字典有幾條。比較的兩字之間的部份愈大(如擴大為從 good 到 gust 之間 ),或比較愈多處的兩字之間(如增加從 book 到 bust 之間和從 moon 到 must 之間),所得的相對大小的結論也就愈可靠。當然,這種方法只能辨別相對大小,要知道收詞總數,還是要以前述的抽樣統計法來做。


        其實,在評鑑字典時,常常是上述兩種方法並用,相輔相成,出版者所提供的數據僅能供參考而已。一本字典的收詞多少當然與它的良窳有密切的關係,但不應該是唯一的考慮要點,其他必須考慮的因素還有很多,如詞條內容品質,使用方便與否,是否夠現代,個人使用目的,例句多寡,有無搭配等等,這些因素的討論散見本書各處,在適當地方還會提出來。
 


版權所有。


~以上資料節錄修自《英文辭典與學英文》
ISBN-13: 978-1-62503-039-9
Amazon,金石堂,三民書局發售中
~版權所有,但是此篇歡迎轉載分享,
~條件是所有連結必須一併出現,
~希望大家的英文都能有長足的進步
英文辭典與學英文(繁體中文版

英文辭典與學英文(簡體中文版

 

沒有留言:

張貼留言