mroongaでparserとnormalizerを同時に指定する方法

mroonga-3.03より、インデックスのコメントにて、
parserとnormalizerを指定できるようになりました。

それぞれのスキーマ（テーブル構造）設計のサンプルを交えて紹介します。
その後に、mroongaで使えるparserとnormalizerの一覧を紹介します。

parserの指定例

約20種類から選ぶことが出来ます。リストは後述。
以下の例はTokenMecabというパーサを指定する際のスキーマです。

CREATE TABLE test (
  id int NOT NULL AUTO_INCREMENT,
  content varchar(255) NOT NULL,
  PRIMARY KEY (id),
  FULLTEXT INDEX (content) COMMENT 'parser "TokenMecab"'
) ENGINE=mroonga DEFAULT CHARSET=utf8;

normalizerの指定例

3種類から選ぶことが出来ます。リストは後述。
以下の例はNormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMarkというノーマライザーを指定する際のスキーマです。

CREATE TABLE test (
  id int(11) NOT NULL AUTO_INCREMENT,
  content varchar(255) NOT NULL,
  PRIMARY KEY (id),
  FULLTEXT INDEX (content) COMMENT 'normalizer "NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark"'
) ENGINE=mroonga DEFAULT CHARSET=utf8;

parserとnormalizerを2つ同時指定する方法

以下、TokenMecabとNormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMarkを同時指定するスキーマです。
ポイントはparserとnormalizerをスペース区切りではなく、各設定を「,」で区切るということです。
具体的にはparser "Token◎◎", normalizer "Normalizer◎◎"という組み合わせです。

CREATE TABLE test (
  id int(11) NOT NULL AUTO_INCREMENT,
  content varchar(255) NOT NULL,
  PRIMARY KEY (id),
  FULLTEXT INDEX (content) COMMENT 'parser "TokenMecab", normalizer "NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark"'
) ENGINE=mroonga DEFAULT CHARSET=utf8;

応用編

mroongaのInnoDB Wrapper Modeを使いつつ、インデックスごとにparserやnormalizerを分けるとこうなります。

CREATE TABLE test (
  id int(11) NOT NULL AUTO_INCREMENT,
  content varchar(255) NOT NULL,
  content2 varchar(255) NOT NULL,
  PRIMARY KEY (id),
  FULLTEXT INDEX (content) COMMENT 'parser "TokenBigram", normalizer "NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark"',
  FULLTEXT INDEX (content2) COMMENT 'parser "TokenMecab", normalizer "NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark"'
) ENGINE=mroonga DEFAULT CHARSET=utf8 COMMENT='engine "innodb"';

mysql-mroonga-3.03 で使える parser

こだわり無ければTokenMecabにしておくと、インデックスサイズがコンパクトに収まります。

off
トークナイズしません。"off"はcontentをそのまま扱いたい場合に使います。例えば、この値は前方一致検索のために指定します。
TokenBigram ※ デフォルト
バイグラムでトークナイズする。ただし、連続したアルファベット・連続した数字・連続した記号はそれぞれ1つのトークンとして扱う。そのため、3文字以上のトークンも存在する。これはノイズを減らすためである。
TokenMecab
MeCabを用いてトークナイズする。groongaがMeCabサポート付きでビルドされている必要がある。
TokenBigramSplitSymbol
バイグラムでトークナイズする。TokenBigramと異なり、記号が連続していても特別扱いして1つのトークンとして扱わず通常のバイグラムの処理を行う。
TokenBigramではなくTokenBigramSplitSymbolを利用すると「Is it really!?!?!?」の「!?!?!?」の部分に「!?」でマッチする。TokenBigramの場合は「!?!?!?」でないとマッチしない。
TokenBigramSplitSymbolAlpha
バイグラムでトークナイズする。TokenBigramSplitSymbolに加えて、連続したアルファベットも特別扱いせずに通常のバイグラムの処理を行う。
TokenBigramではなくTokenBigramSplitSymbolAlphaを利用すると「Is it really?」に「real」でマッチする。TokenBigramの場合は「really」でないとマッチしない。
TokenBigramSplitSymbolAlphaDigit
バイグラムでトークナイズする。TokenBigramSplitSymbolAlphaに加えて、連続した数字も特別扱いせずに通常のバイグラムの処理を行う。つまり、すべての字種を特別扱いせずにバイグラムの処理を行う。
TokenBigramではなくTokenBigramSplitSymbolAlphaDigitを利用すると「090-0123-4567」に「567」でマッチする。TokenBigramの場合は「4567」でないとマッチしない。
TokenBigramIgnoreBlank
バイグラムでトークナイズする。TokenBigramと異なり、空白を無視して処理する。
TokenBigramではなくTokenBigramIgnoreBlankを利用すると「みなさん注目」に「みなさん」でマッチする。TokenBigramの場合は「みなさん」でないとマッチしない。
TokenBigramIgnoreBlankSplitSymbol
バイグラムでトークナイズする。TokenBigramSplitSymbolと異なり、空白を無視して処理する。
TokenBigramSplitSymbolではなくTokenBigramIgnoreBlankSplitSymbolを利用すると「! !? ??」に「???」でマッチする。TokenBigramSplitSymbolの場合は「? ??」でないとマッチしない。
TokenBigramIgnoreBlankSplitSymbolAlpha
バイグラムでトークナイズする。TokenBigramSplitSymbolAlphaと異なり、空白を無視して処理する。
TokenBigramSplitSymbolAlphaではなくTokenBigramIgnoreBlankSplitSymbolAlphaを利用すると「I am a pen.」に「ama」でマッチする。TokenBigramSplitSymbolAlphaの場合は「am a」でないとマッチしない。
TokenBigramIgnoreBlankSplitSymbolAlphaDigit
バイグラムでトークナイズする。TokenBigramSplitSymbolAlphaDigitと異なり、空白を無視して処理する。
TokenBigramSplitSymbolAlphaDigitではなくTokenBigramIgnoreBlankSplitSymbolAlphaDigitを利用すると「090 0123 4567」に「9001」でマッチする。TokenBigramSplitSymbolAlphaDigitの場合は「90 01」でないとマッチしない。
TokenDelimit
空白区切りでトークナイズする。
"movie horror topic" will be tokenised as "movie", "horror", "topic".
TokenDelimitNull
null文字（\0）区切りでトークナイズする。
"movie\0horror\0topic" will be tokenised as "movie", "horror", "topic".
TokenUnigram
ユニグラムでトークナイズする。ただし、連続したアルファベット・連続した数字・連続した記号はそれぞれ1つのトークンとして扱う。そのため、2文字以上のトークンも存在する。これはノイズを減らすためである。
TokenTrigram
トリグラムでトークナイズする。ただし、連続したアルファベット・連続した数字・連続した記号はそれぞれ1つのトークンとして扱う。そのため、4文字以上のトークンも存在する。これはノイズを減らすためである。

mysql-mroonga-3.03 で使える normalizer

オススメはNormalizerMySQLGeneralCIExceptKanaCIKanaWithVoicedSoundMarkです。

NormalizerMySQLGeneralCI
MySQLでいうutf8mb4_general_ciを模したノーマライザー
NormalizerMySQLUnicodeCI
MySQLでいうutf8mb4_unicode_ciを模したノーマライザー（utf8_general_ciやutf8_unicode_ciに相当）
NormalizerMySQLGeneralCIExceptKanaCIKanaWithVoicedSoundMark
濁音・半濁音・「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「っ」などは区別しつつ、カタカナとひらがなは同一視することができるノーマライザーです。「ブラック」と「ふらつく」、「バルス」と「パルス」を区別できます。

参考記事

http://sourceforge.jp/projects/groonga/lists/archive/dev/2013-April/001340.html http://qiita.com/items/5f84689247f1f0d94e01 http://mroonga.org/ja/docs/userguide/wrapper.html https://github.com/groonga/groonga-normalizer-mysql

PlanetMySQL Voting: Vote UP / Vote DOWN

mroongaでparserとnormalizerを同時に指定する方法

parserの指定例

normalizerの指定例

parserとnormalizerを2つ同時指定する方法

応用編

mysql-mroonga-3.03 で使える parser

mysql-mroonga-3.03 で使える normalizer

参考記事

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？