はじめに

多量の行が表示されないように、このブログは1コンテンツしか表示されない。ブログアーカイブから、他の記事を捜してくれ。

環境作れし。
・gawk 3.1.5 for Windows をググッて入手。
・gawk.exeをpathの通ったフォルダにぶち込めし。
 (「windows パスを通す」ググッて)
 (面倒なら、C:\windowsにぶち込む)
・環境変数「awkpath」にスクリプトを保存するフォルダを設定。
 (「環境変数 設定 windows」ググッて)
 (面倒なら、C:\windowsに、紹介されているスクリプトぶち込む)

2013年10月22日火曜日

用語辞書作成支援Awk Script

用語辞書はプロジェクトへの導入等に重要なドキュメントだがこれをgawkだけで作成するには荷が重い。
そこで、コアになる形態素解析にはMecabを使う。Mecabに関しては各自ググってくれ。
gawk側ではMecabが通りやすくする為、フロント処理をする事とMecab出力結果から連名詞の使用頻度を取り出す事だ。

結果として連名詞の使用頻度一覧が出力される。
使用頻度が高い固有名詞は重要な単語で、低い単語は誤字か誤用の可能性が高い。

AWKのつぼ

特になし。Mecab様々だ。

mecabx.bat


ntab.awk


mecab.awk

0 件のコメント:

コメントを投稿