コーパス言語学関係


・限られた授業の中では、コンピュータを利用した言語データの収集などの実践的な内容を取り上げることが必ずしも容易ではありません。このページをみて自習してみてください。
・コーパス言語学関係の研究書や論文は「研究書や論文など」のページを見てください。
・またコーパス言語学関係のリンク集は、研究のメインページにあります。特に英語コーパス学会のページは参考になりますので、ここにもリンクしておきます。
・このページの内容がある程度理解できたら、コーパス言語学関係Step 2に進んでください。
Home

・大門正幸・柳朋宏 『英語コーパスの初歩』 (英潮社、2006年)
入門者にやさしいコーパス言語学のガイド。

・齊藤俊雄・中村純作・赤野一郎(編)『英語コーパス言語学 基礎と実践』改訂新版(研究社、2005年)
以下にもあげた『英語コーパス言語学 基礎と実践』の新しい版がでました。コーパス言語学の方法を多方面から解説した使いやすい本です。

・伊藤雅光 『計量言語学入門』 (大修館書店、2002)
電子テキストを使って言語を分析するというような経験がまったくない方にはお薦めの本です。対象言語は日本語ですが、英語の機械処理は日本語よりも容易な面も多いので、著書の内容を英語に応用するのは簡単です。とりあえずコンピュータにはじめからインストールされているようなツールでどこまで分析が可能であるかを示してくれています。コンコーダンサをインストールしていない段階でもある程度の分析は可能です。(ただし、将来的に研究者を目指している皆さんは、いずれはコンコーダンサやエディタを使いこなしてください。

伊藤先生の本を読み終わったら以下に進んでください。できれば自分のコンピュータを使いながら実践してみる方がいいでしょう。3冊読み終わったら、機械処理の基本的な概念がつかめると思います。

鷹家秀史・須賀廣 『実践コーパス言語学』(桐原ユニ、1998)
齊藤俊雄・中村純作・赤野一郎(編)『英語コーパス言語学 基礎と実践』(研究社出版、1998)
名古屋大学言語文化部・国際言語文化研究科公開講座委員会(編)『インターネットと英語学習』(開文社、2001)


その他の参考書

中尾浩・赤瀬川史朗・宮川進悟 『コーパス言語学の技法――1. テキスト処理入門』 (夏目書房、2002)
この本は、シリーズ・コーパス言語学の技法の第一巻として出されたもので、このあと、2.インターネットの活用、3.専用ソフトによる言語分析、4.スクリプト言語による言語分析と続く予定です。初心者にもわかりやすいようにということで、最初はコンピュータの基礎知識から解説してゆっくりと進みます。しかし、終わってみるとかなり高度の内容にまで話が進んでいることがわかります。この本は、初心者を対象に、と断ってありますが、むしろある程度テキスト処理に慣れた読者が、知らないことを確認したり、スクリプトにまで領域を広げようというときに読むのに適しているように思いました。おそらくそのような読者には最初の方のコンピュータの操作に関する説明は退屈かもしれませんが、そのあたりは速く読み進めればいいでしょう。一方、テキスト処理の経験があまりない読者が読めば、おそらくどこかで挫折するのではないかな、という気がしました。一度挫折しても、また少し経験をつんだあとにもどってくればいいのかもしれませんが。


Douglas Biber, Susan Conrad and Randi Reppen著/齊藤俊雄・他(訳) 『コーパス言語学』 (南雲堂、2003年)
Biber, et al. (1998)のCorpus Linguistics: Investigating Language Structure and Use を日本語に訳したもの。原著のミスを修正しているので、訳本で読むのもお勧めです。コーパス言語学のテクニカルな問題よりも、言語研究にどのように応用すべきか、などに重点が置かれています。巻末にある入手可能なコーパスのリストも重宝します。


Kennedy, G. 1998. An Introduction to Corpus Linguistics. Harlow: Longman.


コンコーダンサ

英語の実証的な研究では、ある文字列を含む文を取り出してくる作業が必要になることがしばしばあります。コンピュータの使用が英語史研究において一般化する前は、研究者はテキストを読みながら用例を集め、カードに書いて整理しました。現在では、この用例を取り出してくるプロセスにコンコーダンサを用います。フリーのものから有料のものまでさまざまですが、日本大学の塚本先生が作成されたKWIC Concordanceは自由にダウンロードできますので、使ってみてはどうでしょうか。KWIC Concordanceのサイトは、ここをクリックしてください。ファイルメニューで検索ファイル(テキストファイルにしておく)を指定してから、操作をしてください。
また、Laurence Anthony氏の開発したAntConcも非常に使いやすいコンコーダンサです。Anthony氏のホームページは、ここをクリック

AntConcの使い方については、神戸大学の石川慎一郎さんのホームページの「コーパス英語研究」のところに説明があります。


コーパスのサイズ

どのぐらいのサイズのコーパスを使用するのがよいかについては、研究テーマによって変わってきます。非常にまれな言語現象を扱う場合には、ある程度大きなコーパスを使用しなければ用例が集まらないこともあります。実際、現代英語のコーパスについては、かなりのサイズのものが市販されるようになってきました。しかし、私の基本的な姿勢は、集まった用例を自分でコントロールできる範囲がよいというものです。(このあたりについては、考え方がいろいろあると思いますが、私は基本的には、すべての例にとりあえず目を通すことにしています。)また、サイズが大きいコーパスの場合には、均質でないデータが入り混じっていることもありますので注意してください。一方、歴史的な文献を扱う場合には、コーパスの種類も少ないですし、自分で電子テキストを作らないといけない場合も多いです。また、そもそも文献そのものが不足している時代や地域もあります。Philologistsがこれまでに直面してきた数々の困難は、コーパスを利用する場合でも同じです。限界を知った上で、言語学者としてのセンスを働かせてください。


統計処理について

言語研究における記述統計について、数を数えただけ、というような批判をする人たちがいます。しかし、言語は統計処理のために存在しているわけではありませんので、ただ見ただけでは、何をどのように分析し、どう数えたらいいかはわかりません。研究を組み立てる段階で、すでに言語研究者としてのセンスが要求されるのです。そのセンスをみがくことが大切です。しかし、ときどき本当に数えただけと思われるような論文が存在するのも事実です。それは、数に振り回されているケースです。そうではなく、収集したデータの主導権を自分が握るようにしなければなりません。しっかりとした仮説をもち、それを検証した論文にはパワーが感じられると思います。
 (なお、数学が得意な人は、統計の勉強も進め、こちらの方も自分でコントロールできるようにしましょう。統計の技法に振り回されるのもまた問題ですから。どうぞ数学が苦手な人たちのアドヴァイザーになってください。)


コーパス言語学と英語史に関する考え方のひとつを『英語青年』に載せました。

家入葉子「コーパス研究と英語史」『英語青年』 2月号: 15-17. 2004.

Step 2にすすむ


Back to Y. Iyeiri's Home

Copyright (c) Yoko Iyeiri 2003-2006