東山n条より

京都在住情報系学生のメモ。

UNIXコマンド look で utf-8 の文字列を2分探索

lookコマンドは,ファイルや標準入力から文字列を2分探索で高速に検索できます。 2分探索するため,入力はソートされている必要があります。

例えば、英単語が1行ずつ入っている file1 から文字列 word1 を検索する場合は以下のようになります。

sort file1 | look word1

日本語(utf-8)の単語が1行ずつ入っている file2 から文字列 word2 の検索を行いたい場合は,

env LC_ALL=C sort file2 | look word2

で行う事ができます。