「語彙プロファイラー」で学習すべき英単語を見つける方法:Compleat Lexical Tutorの使い方

「語彙プロファイラー」で学習すべき英単語を見つける方法:Compleat Lexical Tutorの使い方

英単語を学ぶ上では、重要な単語を、様々な活動でバランスよく学習することが欠かせません。それでは、どのようにすれば「重要な単語」を特定できるのでしょうか?

ある単語が重要であるかどうかを判断する際に役立つ基準の1つとして、その単語の出現頻 (frequency) 挙げられます。わかりやすくいえば、会話や書籍で頻繁に使用される単語は、たまにしか出てこないマイナーな単語よりも優先して学ぶに値する、ということです。

単語の出現頻度に関して重要なことは、ごく少数の単語があらゆるテキストの大部分を占め、それ以外の大多数の単語は、ほとんどまれにしか出現しないということです。これは「Zipfの法則」と呼ばれます(Zipfの法則に関しては、こちらのYouTubeビデオの解説がわかりやすく、お勧めです)。

重要な英単語とそうでない英単語

英語では頻度に応じて、単語を以下の3つのグループに分類することが一般的で (Nation, 2013)。

単語グループ 頻度レベル 語数 カバー率
(1)    高頻度語(high-frequency words) 1000語~3000語 3000語 約94~95%
(2)    中頻度語(mid-frequency words) 4000語~9000語 6000語 約3~4%
(3)    低頻度語(low-frequency words) 10000語以上 多数 約2%

上表の「カバー率」とは、ある単語がテキスト全体の何%を占めているか(カバーしているか)を指します。例えば、英語で最も頻繁に使われる単語は定冠詞the ですが、the だけであらゆるテキストの約7%を占めると言われています(つまり、英語で文章を読むと、100語に7回の割合でtheが出てくる、ということです)。この場合、the のカバー率は7%となります。ちなみに、一般的な英語の書籍では、1ページに含まれる単語は約300語程度だと言われています。the のカバー率が7%だと考えると、1ページ中に21回もtheという単語が登場する計算になります。

英単語の3つのグループについて見てみましょう。1つ目のグループである高頻度語は、英語で最も頻度が高い3000語から構成されます。このグループに属する3000語だけで、一般的な英文テキストの約94~95%をカバーします。1語を学ぶごとにカバー率を大きく増やすことができるので、非常にコスト・パフォーマンス(費用対効果)が高い単語と言えます。英語を学習する上では、まずこの高頻度語をどのような手段(単語カードや単語帳など)を使ってでも良いので覚えましょう。

2つ目のグループである中頻度語は6000語から構成され、一般的な英文テキストの約3~4%を占めます。高頻度語と比べると1語あたりのカバー率はだいぶ下がりますが、会話・映画・小説・新聞を理解するには、6000~9000語程度を知っている必要があるという研究があります(Nation, 2006)。英語の上級者になるためには、高頻度語3000に加えて、中頻度語6000もぜひおさえておきたいところです。

3つ目のグループは、低頻度語と呼ばれます。高頻度語・中頻度語以外の単語は、すべて低頻度語に分類されます。低頻度語は数多くありますが、一般的な英文テキストにおけるカバー率はすべて合わせても2%程度にしかなりません。そのため、学習すべき優先順位は低くなります。高頻度語と中頻度語を完全にマスターしたという学習者でない限り、低頻度語をあえて学習する必要はないでしょう。

英単語を学ぶ上で重要なことは、ごく少数の単語(高頻度語)があらゆるテキストの大部分を占め、それ以外の大多数の単語(中頻度語や低頻度語)は、ほとんどまれにしか出現しないということです。例えるなら、英単語はごく少数の働き者と、その他大勢の怠け者から成り立っている、ということです。

注)「最も頻度が高い単語3000語で、あらゆるテキストの約94~95%をカバーする」といった場合の「1語」とは、「ワードファミリー」(word families) 呼ばれるものです。ワードファミリーでは、ある英単語の活用形や派生形も含めて、「1語」と数えます。例えば、includeのワードファミリーには、その活用形であるincludes, included, includingや、派生形であるinclusive, inclusionが含まれます。

語彙プロファイラーで英単語の頻度を調べる

せっかく英単語を学習するのであれば、めったに出会わない怠け者の単語ではなく、頻繁に出会う働き者の単語を学ぶようにしたいものです。働き者の単語と怠け者の単語を見分けるためには、「語彙プロファイラー」というツールが有益です。

語彙プロファイラーには様々なものがありますが、本稿ではVocabProfilerをご紹介します。VocabProfilerはケベック大学モントリオール校のTom Cobb教授が開発したもので、https://www.lextutor.ca/vp/comp/から無料で使用できます。

VocabProfilerの使い方

VocabProfilerで語彙レベルを調べるためには、画面中央のボックスに、分析したい英文テキストを貼り付けます。ここでは、例としてNew York Timesの“Republicans Grind Impeachment Inquiry to Halt as Evidence Mounts Against Trump”という記事 (2019年10月23日) を貼り付けます。

*画面中央のボックス(上の写真で青く囲った部分です)に、分析したい英語の文章を貼り付けます。

テキストを貼り付けた後は、画面右上にある“FRAMEWORKS”というボックスの中から、分析に使用する語彙リストを選択します。通常は一番上にある「BNC-COCA 1-25k」を選択することをお勧めします。

その後、画面右下にある黄色い [SUBMIT_window] ボタンをクリックします。すると、以下のように分析結果が表示されます。

分析結果の上の方にある表をご覧ください。この表の「Tokens (%)」は、それぞれの頻度レベルの単語が文中の何%を占めて(=カバーして)いるかを表します。例えば、「K-1」という行の「Tokens (%)」には「78.7%」とあります。これは、1000語レベルの単語(K-1)がこの文章全体の78.7%を占めているという意味です(1kや2kの“k”とはkilo、すなわち1000という意味です)。つまり、この英文記事中で用いられている単語の約8割は、英語で最も頻度が高い1000語が占めている、ということです。

次に、「K-2」という行の「Tokens (%)」には「7.0」とあります。これは、2000語レベルの単語(K-2)がこの文章全体の7.0%を占めているという意味です。

次に、同じ表の一番右にある「Cumul. token(%)」の行をご覧ください。この列は、「累積カバー率」(cumulative coverage) 表します。例えば、「K-1」という行の「Cumul. token (%)」には「78.7%」とあります。これは、1000語レベルまでの単語(K-1)がこの文章全体の78.7%を占めているという意味です。

その下の「K-2」という行の「Cumul. token (%)」には「85.7%」とあります。これは、2000 (k-2) ベルまでの全ての単語、すなわち、1000語レベルと2000レベルの単語を合計すると、英文中の85.7% (= 78.7% + 7.0%) 単語をカバーできる、という意味です。つまり、この英文記事で用いられている単語の85.7%は、英語で最も頻度が高い2000語から構成されている、ということです。

この表はさらに、「Coverage 95」と「Coverage 98」という2つの線で区切られています。

「Coverage 95」とは、「英文中で用いられている95%の単語をカバーするのに必要な語彙レベル」を表します。この表では、5000語レベル(k-5)の下に「Coverage 95」という区切りが入っています。つまり、この英文記事で用いられている単語の95%をカバーする上では、少なくとも5000語を知っている必要がある、ということを意味します。念のため5000語レベル(k-5)の「Cumul. token (%)」を見てみると「95.6%」となっており、英語で最も頻度が高い5000語を知っていれば、この英文記事の95%以上をカバーできる、ということが確認できました。

ちなみに、標準的なテキストであれば、3000語レベルまでの単語(高頻度語)で94〜95%の単語はカバーできることが知られています。5000語を知らないと95%のカバー率に達しないという点で、このNew York Timesの記事は比較的難易度が高いと言えます。

「Coverage 98」とは、「英文中で用いられている98%の単語をカバーするのに必要な語彙レベル」を表します。この表では、8000語レベル(k-8)の下に「Coverage 98」という区切りが入っています。つまり、この英文記事で用いられている98%の単語をカバーする上では、少なくとも8000語を知っている必要がある、ということを意味します。8000語レベル(k-8)の「Cumul. token (%)」を見てみると「98.1%」となっており、英語で最も頻度が高い8000語を知っていれば、この英文記事の98%以上をカバーできる、ということが確認できました。

95%・98%のカバー率がなぜ重要なのか?

ところで、なぜ英文中で用いられている95%(あるいは98%)の単語をカバーするのに必要な語彙レベルを知る必要があるのでしょうか? それは、「学習者が辞書などを使わずに自力で文章を理解するためには、文中の95〜98%以上の単語を知っている必要がある」という研究結果があるからです。すなわち、100語から構成されるテキストを自力で読んで理解するためには、その内の95〜98語以上が既知であることが望ましいということです。

VocabProfilerによる分析結果をふまえると、今回分析したNew York Timesの記事を自力で理解するためには、5000〜8000語レベルの語彙力が必要であると推定されます。

なお、どのくらいの英単語を知っているかを調べる際には、以下のwebサイトに掲載されているVocab Levels Test, Vocab Size Test, Updated Vocab Levels Test等のテストが活用できます。

https://www.lextutor.ca/tests/

難しい単語を特定する

分析結果の画面で一番下までスクロールすると、「Families List」と書かれたセクションがあります。ここでは、英文テキストに登場した単語が頻度レベルごとに提示されています。例えば、このセクションで1kに分類されている単語は、「最も頻度が高い単語1000」を示します。下の画面では、青字で表示されている単語がこれに該当します (a, about, across, Adam, afterなど)。

次に、2kに分類されている単語は、2000語レベルの単語を示します。上の画面では、緑色で表示されている単語がこれに該当します (accuse, aid, assist, damage, denyなど)。

各単語の後の[ ]は、その単語がテキスト中に登場した回数を指します。例えば、a_[16]は、“a”という単語が全部で16回登場したことを表します。

ここで、冒頭に示した英単語の分類に戻りましょう。英語では頻度に応じて、単語を「高頻度語」(1000語〜3000語レベル)、「中頻度語」(4000語〜9000語レベル)、「低頻度語」(10000語レベル)という3つのグループに分類することが一般的でした。

今回分析で用いたNew York Timesの記事では、中頻度語(4000語~9000語レベル)に該当するのは以下の単語です。

語彙レベル 英単語
4000語レベル chaos, ms, obstacle, senator, sergeant, suite, testimony
5000語レベル chant, enlist, smear, sow, withhold
6000語レベル deflect, deposition, hush, impeach, juror, notwithstanding
7000語レベル defiance, transparency
8000語レベル onslaught, quid, unearth
9000語レベル incriminate, subpoena

また、低頻度語(10000語レベル以上)に該当するのは以下の単語です。

語彙レベル 英単語
10000語レベル 該当なし
11000語レベル quo
12000語レベル standoff
13000〜17000語レベル 該当なし
18000語レベル ultraconservative

VocabProfiler以外の語彙プロファイラーも使ってみよう

今回ご紹介したVocabProfiler以外にも、語彙プロファイラーは多くあります。例えば、関西大学の水本篤教授が開発したNew Word Level Checker (https://nwlc.pythonanywhere.com) は、(1) New JACET 8000、(2) SVL 12000、(3) The New General Service List (NGSL)、(4) CEFR-J Wordlistという4つの語彙リストに基づいて、英単語の語彙レベルを調べることが出来ます。

New JACET 8000では、母語話者の使用頻度だけでなく、日本国内で使用されている英語教科書や入試問題などにおける出現頻度に基づき、語彙レベルを補正しています。そのため、日本における英語学習者にとっての難易度を推定したい際には、母語話者の使用頻度のみを元にした語彙リストよりも、New JACET 8000の方が適している場合もあります。

母語話者の使用頻度を知りたい場合はVocabProfilerでBNC-COCA等のリストを使い、日本における英語学習者にとっての難易度を推定したい際にはNew Word Level CheckerのNew JACET 8000を使うなど、目的に応じて使い分けると良いでしょう。

ある英文テキストの難易度を調べたり、テキスト中の重要な単語を特定する上では、語彙プロファイラーは非常に有益です。本記事の内容を参考に、語彙プロファイラーで様々なテキストを分析されてみてはいかがでしょうか?

ちなみに本記事でご紹介したVocabProfilerは、Compleat Lexical Tutor (https://www.lextutor.ca/) というwebサイトの機能の1つです。Compleat Lexical Tutorは機能が豊富で非常に素晴らしいwebサイトなのですが、多機能であるゆえに使用方法が若干わかりにくく、さらに90年代を彷彿させるデザインであるため(ずっと見ていると目がチカチカします)、とっつきにくい印象があります。本記事をきっかけに、英語学習者や英語教師にとって、Compleat Lexical Tutorがより身近なツールとなることを願っております。

なお、VocabProfilerについては、拙著『英単語学習の科学』(研究社)の2章でもご紹介していますので、そちらも合わせてご覧ください。

文責:
中田達也(立教大学異文化コミュニケーション学部准教授)
江口政貴(オレゴン大学言語学部博士課程在籍)
柳沢明文(ウェスタンオンタリオ大学教育学部博士課程在籍)

参考文献

Nation, I. S. P. (2006). How large a vocabulary is needed for reading and listening? Canadian Modern Language Review, 63, 59–82.

Nation, I. S. P. (2013). Learning vocabulary in another language (2nd ed.). Cambridge, UK: Cambridge University Press.

「なかたンゴ」で多肢選択形式(4択)の学習ができるようになりました

なかたンゴ ver. 0.6を公開しました。
なかたンゴ ver. 0.6では、記述式問題に加えて、多肢選択形式(4択)でも学習ができるようになりました。スマートフォンなどで学習する際に便利です。
「DIYなかたンゴ」は、現時点では多肢選択問題には対応していません。

「DIYなかたンゴ」 を公開しました。

英単語学習ソフト「なかたンゴ」を、「DIYなかたンゴ」と「なかたンゴ」という2種類のソフトに分割しました。

既存の語彙リスト(NGSL, NAWL, TOEIC単語)を使って学習する場合は、「なかたンゴ」をご利用ください。

「なかたンゴ」

自分で入力したコンテンツを学習する場合は、「DIYなかたンゴ」をご利用ください。

「DIYなかたンゴ」

「なかたンゴ」・「DIYなかたンゴ」の詳細および使用方法については、以下をご覧ください。

「なかたンゴ」・「DIYなかたンゴ」

英単語学習ソフト「なかたンゴ」を更新しました。TOEIC頻出英単語1,242語を学習できるようになりました

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.41を公開しました。
ver. 0.41では、TOEIC Service List収録の1,242語を学習できるようになりました。TOEIC Service ListはCharles Browne教授・Brent Culligan教授・Joseph Phillips教授によって作成された語彙リストです(英単語の和約はStuart McLean氏が作成)。

NGSL収録語とTOEIC Service List収録語を合わせて学ぶことで、TOEIC教材およびTOEICテストの99%の語彙をカバーすることが示されています。

英単語学習ソフト「なかたンゴ」を更新しました。NAWL (New Academic Word List) とNGSL (New General Service List) の単語を学習できるようになりました。

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.4を公開しました。

Ver. 0.4では、NAWL (New Academic Word List)NAWL (New Academic Word List) とNGSL (A New General Service List) の単語を学習できるようになりました。 NAWL・NGSLは、ともにCharles Browne教授・Brent Culligan教授・Joseph Phillips教授によって開発された英単語リストです。

NGSLは、英語を使用する上で最も重要な基本2,851単語が収録されています。NGSLには多くの基礎的な単語が含まれているため、初学者に適しています。NAWLは、963語からなる学術英単語のリストです。アカデミックな単語が中心であるため、中級者~上級者に適しています。

詳細は以下のリンクからどうぞ。

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.4

 

英単語学習ソフト「なかたンゴ」の最新版を公開しました。学習回数を5段階から選択できるようになりました。また、「ヒント」機能も追加されました。

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.31を公開しました。

Ver. 0.31での変更点は、以下の通りです。

(1) 学習回数を「超あっさり」、「あっさり」、「ふつう」、「こってり」、「超こってり」の5段階から選択できるようになりました。「あっさり」なほど学習回数が少なく、「こってり」なほど学習回数が多くなります。

・ 多くの単語を広く浅く学習したい時や、時間があまりない時には「あっさり」

・ 少ない単語を深く学習したい時や、時間的な余裕がある時には「こってり」

など、目的や時間に合わせて、学習回数を調整することが可能になりました。

ScreenClip

(2) 「ヒント」機能が追加されました。「ヒント」ボタンを押すと、その単語の文字数と1文字目の文字がヒントとして表示されます。

例えば、”apple”が正解であれば、「aから始まる5文字の単語です」というヒントが表示されます。

ScreenClip

詳細は以下のリンクからどうぞ。

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.31

英単語学習ソフト:「なかたンゴ」の最新版を公開しました。学習できる項目の上限が20個から100個に増えました

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.3を公開しました。

Ver. 0.3での変更点は、以下の通りです。

(1) 学習できる項目(単語)の上限が、20個から100個に増えました。

(2) 「正解」、「不正解」に加えて、「おしい!」というフィードバックも表示されるようになりました。おしいスペリングミスかどうかの判定には、「スペリングミスの度合いに応じて部分点を自動で計算するWebアプリ:EASS(Electronic Automated Spelling Scorer)」と同じアルゴリズムを用いています。

詳細は以下のリンクからどうぞ。

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」ver. 0.3

分散学習の効果を最大限に高める英単語学習ソフト:「なかたンゴ」を公開しました

分散学習の効果を最大限に高める英単語学習ソフト:「なかたンゴ」を公開しました。詳細は、以下のリンクからどうぞ。

分散学習の効果を最大限に高める英単語学習ソフト「なかたンゴ」

マッチング式多肢選択テスト作成支援ツール:Vocabulary Match Makerを公開しました

Vocabulary Match Makerは、マッチング式多肢選択テスト作成を支援する無料ツールです。例えば、以下のようなマッチング式テストを作成することができます。

 英単語 和訳
1. peach
2. kiwi
3. grape
4. melon
5. banana
6. orange
7. grapefruit
8. apple
9. pear
10. pineapple
11. watermelon
a. りんご
b. キウイ
c. バナナ
d. メロン
e. ぶどう
f. すいか
g. なし
h. もも
i. グレープフルーツ
j. パイナップル
k. オレンジ

使用方法

apple
banana
grape
grapefruit
kiwi
melon
orange
peach
pear
pineapple
watermelon
  • 「Responses」と書かれたボックスに、それぞれの問題に対応した正解を入力します。
    (例)
りんご
バナナ
ぶどう
グレープフルーツ
キウイ
メロン
オレンジ
もも
なし
パイナップル
すいか
  • 「Create」ボタンをクリックします。すると、以下のようなマッチング式テストが出力されます。
 英単語 和訳
1. peach
2. kiwi
3. grape
4. melon
5. banana
6. orange
7. grapefruit
8. apple
9. pear
10. pineapple
11. watermelon
a. りんご
b. キウイ
c. バナナ
d. メロン
e. ぶどう
f. すいか
g. なし
h. もも
i. グレープフルーツ
j. パイナップル
k. オレンジ。

WordやExcelに貼り付けて印刷すれば、ワークシートや小テストとして活用することができます。

    • 以下のような模範解答も自動で出力されます。
       英単語 模範解答
      1. peach
      2. kiwi
      3. grape
      4. melon
      5. banana
      6. orange
      7. grapefruit
      8. apple
      9. pear
      10. pineapple
      11. watermelon
      h. もも
      b. キウイ
      e. ぶどう
      d. メロン
      c. バナナ
      k. オレンジ
      i. グレープフルーツ
      a. りんご
      g. なし
      j. パイナップル
      f. すいか

      活用方法

    • 英単語テスト以外にも、歴史(出来事と年号のマッチング)、地理(国名と首都のマッチング、県名と県庁所在地)、理科(元素記号と元素名のマッチング)のテスト作成等にも使用することができます。
    • Vocabulary Match Makerは紙ベースのワークシートやテスト作成を支援するものであり、オンラインでテストの実施・採点を行うツールではありません。

      注意点

    • 入力できる問題・正解は、それぞれ26個までです。
    • 本ソフトウェアを使用した事により生じるいかなる損害に関しても、開発者は責任を負いません。

リンク

マッチング式多肢選択テスト作成支援ツール:Vocabulary Match Maker

スペリングミスの度合いに応じて部分点を自動で計算するWebアプリ:EASS(Electronic Automated Spelling Scorer)を公開しました

英単語のスペリングを採点する際に、「おしいスペリングミスには部分点をあげたい」と思われる方は多いでしょう。しかし、何をもって「おしい」とするかには個人差があり、主観的な判断が入ってしまいがちです。

第二言語習得研究においても、”minor spelling mistakes(軽微なスペリングのミス)” (Laufer & Nation, 1999, pp. 38–39), “close approximations of the target word(模範解答に良く似た解答)” (Webb, 2009, p. 455), “misspelled responses which clearly resembled the correct answer(模範解答に明らかに似た誤答)” (Webb & Kagimoto, 2009, p. 64)といった、主観的な基準で部分点が与えられていることがあります。

そこで、スペリングに関する知識を客観的に評価するひとつの試みとして、スペリングミスの度合いに応じて部分点を自動で計算するwebアプリを開発・公開しました。

「EASS (Electronic Automated Spelling Scorer): It puts you to ease (with spelling)」

本ソフトウェアはJoe Barcroft教授 (Washington University in St. Louis, USA)によって開発された、 The lexical production scoring protocol (LPSP)を元にスコアを算出します。

LPSPの詳細については、以下をご参照ください。

Barcroft, J. (2002). Semantic and structural elaboration in L2 lexical acquisition. Language Learning, 52, 323–363.

Barcroft, J. (2003). Effects of questions about word meaning during L2 Spanish lexical learning. The Modern Language Journal, 87, 546–561.

Barcroft, J., & Rott, S. (2010). Partial word form learning in the written mode in L2 German and Spanish. Applied Linguistics, 31, 623–650.

 

使用方法

  • 「EASS (Electronic Automated Spelling Scorer)」にアクセスします。
  • 「Correct answer」と書かれたボックスに、模範解答を入力します。
  • 「Responses」と書かれたボックスに、解答を入力します。解答は複数入力することができます。
  • 「Calculate」ボタンを押すと、入力した解答全てに対して、スコアを計算することができます。
  • 本ソフトウェアは無料で使用出来ます。

結果の見方

結果の見方は以下の通りです。

  • Response:入力した解答です。
  • Score:その解答に与えられるスコアです。

spelling

注意点

  • 英語のアルファベット以外の文字(á, é, í, ó, or úなど)には対応していません。
  • 句読点などの記号は無視されます。
  • 大文字・小文字は異なる文字として認識されます。
  • 本ソフトウェアを使用した事により生じるいかなる損害に関しても、開発者は責任を負いません。

References

Laufer, B., & Nation, I. S. P. (1999). A vocabulary size test of controlled productive ability. Language Testing, 16, 36–55.

Webb, S. A. (2009). The effects of pre-learning vocabulary on reading comprehension and writing. Canadian Modern Language Review, 65, 441–470.

Webb, S. A., & Kagimoto, E. (2009). The effects of vocabulary learning on collocation and meaning. TESOL Quarterly, 43, 55–77.