| Last modified: May 19, 2000 (English
Version)
「正規表現」検索について 染谷泰正
正規表現 (regular expression) とは、特殊な記号を使って文字列の組み合わせ(パターンマッチング)を指定する方法です。詳しくは専門の参考書を参照していただくとして、以下、Online BLC Concordancer を使うに当たって覚えておくと便利な正規表現のいくつかについて簡単に説明します。 1. 通常の英数字 通常の英数字はそのままマッチします。
2. 主な正規表現とその意味
注) 現在の BLC Concordancer では、使用しているコーパスのデータ構造の制約から
^ 記号(通例、キャレット (caret) と呼んでいるようです)は無効になっています。ただし、キャラクタークラスの中では使うことができます。
例
なお、上記のとおり正規表現で使われる記号や文字(「メタ文字」と呼ぶ)は特殊な意味を持ちますので、これらの記号・文字そのものを検索する場合はその前にエスケープ記号(日本語キーボードでは \ マーク、英語キーボードではバックスラッシュ -- 現在の BLC Concordancer では自動的に後者になります) を加えます。たとえば + 記号そのものにマッチさせたい場合は \+ となります。 したがって、+123 や +547のように +記号を頭に持つ数字列に一致させたい場合の検索式は \+[0-9]+ となります(ただし、現在の BLC にはこの用例はありません)。 同様に、たとえば (s), (txt), (Japan) のような丸カッコに囲まれた文字列に一致させたい場合の検索式は \([a-zA-Z]+\) となります。ただし、現在の BLC データでは原則として句読点記号の前後に1文字分のスペースが入っていますので、これを考慮に入れる必要があります。したがって、この検索式は .\(.[a-zA-Z]+.\). または .\(.[a-zA-Z]+ のように丸カッコの前後にスペース相当のピリオドを加えたものにします。これで、( s ), ( txt ), ( Japan ) のような文字列にマッチします。 最初はかなり面倒ですが、いろいろ試しているうちに慣れてきます。なお、うまくいかない場合は正規表現検索式が正しいかを確認してからもう一度トライしてください。それでもだめなら諦めて別の方法を考えてください(どういうわけか、サーバーのほうで受け付けないことがあります)。
Back to BLC Concordancer (c) 2000 Yasumasa Someya
|