お薦めの本 (1)
 

KH Coderの本(サポートページへ)
 

リスク社会を生きる若者たち ※第9章にKH Coder開発者によるアンケート自由記述の分析例
 

コーパスとテキストマイニング ※KH Coderによるアンケート自由記述の分析について解説あり
 

Rのパッケージおよびツールの作成と応用 ※KH Coderによる分析を自動化したり、新たな機能を追加する方法の解説あり
 

言語研究のための統計入門(勝手サポートページへ) ※対応分析・クラスター分析等についての解説・利用例・KH Coderによる練習問題
 
KH Coder

最新アルファ版のダウンロード

アルファ版のご利用について

このページではKH Coder 3のアルファ版(開発途上版)を公開しています。KH Coder 3では新たに中国語(簡体字)・韓国語・ロシア語・スロベニア語・カタロニア語データの分析に対応しました。またフランス語・ドイツ語・イタリア語・ポルトガル語・スペイン語データから、従来よりも正確に語の基本形を取り出せるようになりました。このほか共起ネットワーク・多次元尺度構成法・対応分析などの機能が向上しています。

※日本語以外のデータはUTF-8でご準備下さい。 またVer. 3にはまだバグが残っている可能性もあります。もしバグを発見なさったら、掲示板でお知らせいただけますと幸いです。

Windows版パッケージ

khcoder-3a09d-f.exe (2017 07/18)
※移動先で5秒待つと自動的にダウンロードが始まります。紛らわしい広告類をクリックなさらないようご注意ください。

このファイルを実行(ダブルクリック)し、開いたWindowの「Unzip」ボタンをクリックすると、(特に変更しなければ)「C:\khcoder3」というフォルダにすべてのファイルが解凍されます。解凍されたkh_coder.exeを実行すると、KH Coderが起動します。

KH Coderをはじめてご利用の方には、チュートリアルを一読されることを強くお勧めします。

なお、このパッケージには、KH CoderのWindows用バイナリ、チュートリアル、マニュアル、さらにChaSen・MySQL・R等が含まれています。これらの同梱されているソフトウェアの設定は、KH Coderが自動的に行います。あらかじめChaSen・MySQL・Rがインストールされている場合でも、競合を起こすことはないはずです。

ソースコード (Linux / Mac OS X / Windows共通)

khcoder-3a09d.tar.gz (2017 07/18)

Perlで記述されたソースコードです。必要に応じてKH Coderの処理内容を確認したり、機能を付け加えたりといったことを、自由に行っていただけます。必要なソフトウェアが揃っていれば、Linux・Mac・Windowsを問わず動作します。

 

更新履歴

Ver. 3.Alpha.9での変更点

  • 共起ネットワークの機能を拡充
  • 細部の調整
    • BOM付きの分析対象ファイルに対応した
    • Windows版パッケージに添付のHanDicを最新版に更新した
  • バグの修正
    • 「分析対象ファイルのチェック」を行なった後、見つかった問題点の詳細を「画面に表示」すると、KH Coderが異常終了する場合がある問題を修正
    • 前処理の直後にショートカット・キーが機能しなくなる問題を修正
    • 容量の大きいデータを分析しようとした時にMySQLエラー「lost connection to mysql server during query」が発生する場合がある問題を修正した

[2017 07/18]

Ver. 3.Alpha.8での変更点

  • ドイツ語データから従来よりも正確に言葉の基本形を取り出せるようになった。FreeLingの新しいバージョン(4.0)を利用することで実現。
  • スロベニア語データの分析に対応した。同じくFreeLing 4.0を利用。
  • Windows版パッケージに同梱の韓国語データ分析用の辞書「HanDic」を最新版に更新。
  • プロットに凡例(カラー・バブル等)を追加
  • 細部の調整
    • 共起ネットワーク作成時に、従来のJaccard係数だけでなく、Cosine係数やEuclid距離を選択できるようになった。
    • UIの微修正により、操作性の改善を図った。Rによる多変量解析や描画に失敗した際、何度もエラーメッセージが表示されていたのを改善し、必要なエラーが1度だけ表示されるようにした。また分析対象ファイルとしてExcel・CSVファイルを登録したプロジェクトでは、対応分析の画面を開いたとき、デフォルトで「抽出語×外部変数」が選択されるようにした。
    • 外部変数の値は最大2万字まで入力可能にした(従来は250文字まで)。ただし変数名は従来通り250文字まで。付加的な情報として長めの文章を入力しておき、「文書表示」画面で閲覧・確認したいといった場合むけの変更。
    • OSの言語が日本語以外の場合は、メニューやボタンの表示を自動的に英語に変更するようにした。
    • 対応分析の際に、変数の値が2種類しかない場合は、成分を1つだけ抽出し、その1つをプロットのX軸Y軸の両方に用いるようにした。
  • バグ修正

[2017 01/15]

Ver. 3.Alpha.7での変更点

  • H1からH5タグで括った見出しの扱いを変更した。
    • こうした見出しも1つの「文」と見なして数えるのが従来の仕様であった。しかしExcel形式のファイルを読み込んだときや、多数のテキストファイルを自動的に1つにまとめた時には、データを区切るために、自動的に見出し文が挿入される。こうした自動挿入された単なる区切りは、「文」として数えないようにした。
    • 詳細は同梱マニュアルのA.2.1節、「それぞれの単位でのコーディングや検索」
      の項に記載。
    • この問題については掲示板でご示唆をいただきました。ありがとうございます。

[2016 03/28]

Ver. 3.Alpha.6での変更点

  • ロシア語およびカタロニア語のデータ分析に対応した。語の抽出にはFreeLingを利用。
  • フランス語・イタリア語・ポルトガル語・スペイン語への対応が改善した。従来は単純なルールで語尾を切り落とすことしかできなかったが、FreeLingを使うことで、より正確に基本形に直して抽出できるようになった。

[2016 01/20]

Ver. 3.Alpha.5での変更点

  • 文字コード関連の細かなバグをいくつか修正した。

[2016 01/14]

Ver. 3.Alpha.4での変更点

  • 共起ネットワークコマンドに「係数を表示」オプションを追加した[スクリーンショット](3.Alpha.4a)。
    • 共起関係の強さ(Jaccard係数)をネットワークに表示する
    • 線が密集すると読み取りにくくなるが、「最小スパニング・ツリーだけを描画」オプションと併用すると読み取りやすくなる
  • 共起ネットワークをGraphML形式およびPajek形式で保存できるようにした[スクリーンショット1][スクリーンショット2](3.Alpha.4b)。
  • 対応分析と多次元尺度構成法の結果をCSV形式で保存できるようにした[スクリーンショット1][スクリーンショット2](3.Alpha.4c)。ExcelのほかJMPやSPSSなど、他のソフトウェアでプロットを作り直したい時には便利だろう。
  • 画面表示(メニュー・ボタン・ラベル等)の言語として中国語と韓国語を追加した。
    • ※ただし、KH Coderに詳しくない方に翻訳をお願いしたので、おそらく訳が完全ではない部分もあると思います。お気づきの点がありましたら、より良い訳し方とあわせてお知らせいただけると大変ありがたく存じます。
  • MeCab向け韓国語辞書「HanDic」の新しいバージョンがリリースされていたので、同梱のHanDicを新しいバージョンに差し替えた。

[2015 11/29]

Ver. 3.Alpha.3での変更点

  • 韓国語データの分析に対応した。
    • 韓国語データから語を取り出すために、MeCab向けの韓国語辞書「HanDic」を利用(Windows版パッケージには同梱)。
    • なおKH Coderで利用するために「HanDic」に付属のdicrcファイルに次の記述を追加している。
      ; ChaSen
      node-format-chasen = %f[6]\t%M\t%f[5]\t%F-[0,1,2]\t%f[3]\t%f[4]\n
      unk-format-chasen = %f[6]\t%M\t%f[6]\t%F-[0,1,2]\t\t\n
      eos-format-chasen = EOS\n
  • MDS(多次元尺度構成法)コマンドを拡充した[スクリーンショット](3.Alpha.3d)。
    • SMACOFアルゴリズムを選択できるようにした。
    • 「ランダムスタートを繰り返してより良い解を探す」オプションを追加した。
  • バグの修正
    • 「語の取捨選択」画面の「ファイルから読み込み」機能が正常に機能しない場合がある問題を修正した。
    • コンソール出力が一部文字化けしていた問題を修正した。
    • 韓国語版Windows上では起動しない問題を修正した(3.Alpha.3a)。
    • ユーザーが自身でRと最新版のigraphパッケージをインストールしていると、共起ネットワーク作成に失敗する場合がある問題を修正した(3.Alpha.3b)。
    • 韓国語データの分析時に、「外部変数と見出し」画面で「特徴語」「一覧」をクリックするとエラーになる問題を修正した(3.Alpha.3b)。
    • 「分析対象ファイルのチェック」実行や、その後の「自動修正」に失敗する場合がある問題を終始した(3.Alpha.3d)。

[2015 11/01]

Ver. 3.Alpha.2での変更点

  • 細部の調整
    • 外部変数の値の表示順が従来はVer. 2と異なっていたので、Ver.2と同じ順番で表示されるようにした。これによってコーディング結果のクロス集計や外部変数を用いた対応分析の結果が、並び順のような見た目も含めて、Ver. 2の結果と同一になった。
    • 抽出語とコードを使った各種の集計結果がVer. 2と同じになることを確認した。
    • Ver. 2.00aおよび2.00bでの修正点をこちらにも取り入れた。
  • バグの修正
    • 前処理実行時にMySQLエラーが表示され、前処理が完了できない場合がある問題を修正した。
    • 中国語データのKWICコンコーダンスで、単語間に余分なスペースが入るバグを修正した。
[2015 10/05]

Ver. 3.Alpha.1での変更点

  • 中国語データの分析に対応
    • 中国語データは簡体字・UTF-8で準備する必要がある。Stanford Word SegmenterおよびStanford POS Taggerを用いて中国語データから語を抽出。
    • 中国語データのKWICコンコーダンスで、単語間に余分なスペースが入っていた問題を修正した(3.alpha.2)。
  • アクセント付きアルファベットを保存・表示できるようになった。
    • フランス語・ドイツ語・スペイン語などをあつかう際、これまではアルファベットについているアクセント記号を削除していた。このアクセント記号を保存・表示できるようになった。
  • Ver. 3で仕様が変更になった点
    • 「文書×抽出語」表における文書長(文字数・length_c)は、ver. 2では半角文字を0.5文字、全角文字を1文字とカウントしていたが、Ver. 3では半角全角にかかわらず1文字と数えるようになった。
    • 全角記号のみからなる語がver. 2では「未知語」品詞を与えられていたが、ver. 3では「その他」品詞を与えるようになった。
    • ver. 2.xでは外部変数の大文字と小文字が区別されたが、3.xでは大文字と小文字を区別せず、同じものと見なしている。
    • 「KWICコンコーダンス」および「関連語検索」機能で表示の順番を決めるときに、たとえば語の出現回数が同じ回数であるといったように、同順・同値になった部分があると、その部分の表示順がver. 2とは一部異なっている。
[2015 08/15]

 

[ KH Coder ]

Hosted by SourceForge

  *   Copyright © 2001- 樋口耕一
E-Mail: