お薦めの本 (1)
 

KH Coderの本(サポートページへ)
 

リスク社会を生きる若者たち ※第9章にKH Coder開発者によるアンケート自由記述の分析例
 

文章を科学する ※『赤毛のアン』英語原文の分析例と、言語学的な分析のための手順など
 

コーパスとテキストマイニング ※KH Coderによるアンケート自由記述の分析について解説あり
 

Rのパッケージおよびツールの作成と応用 ※KH Coderによる分析を自動化したり、新たな機能を追加する方法の解説あり
 

言語研究のための統計入門(勝手サポートページへ) ※対応分析・クラスター分析等についての解説・利用例・KH Coderによる練習問題
 
KH Coder

最新アルファ版のダウンロード

アルファ版のご利用について

このページではKH Coder 3のアルファ版(開発途上版)を公開しています。KH Coder 3では新たに中国語(簡体字)・韓国語・ロシア語・スロベニア語・カタロニア語データの分析に対応しました。またフランス語・ドイツ語・イタリア語・ポルトガル語・スペイン語データから、従来よりも正確に語の基本形を取り出せるようになりました。このほか共起ネットワーク・多次元尺度構成法・対応分析などの機能が向上しています。

※日本語以外のデータはUTF-8でご準備下さい。 もしアルファ版のバグを発見なさったら、掲示板でお知らせいただけますと幸いです。

Windows版パッケージ

khcoder-3a10L.exe (2017 11/07)
※移動先で5秒待つと自動的にダウンロードが始まります。紛らわしい広告類をクリックなさらないようご注意ください。

このファイルを実行(ダブルクリック)し、開いたWindowの「Unzip」ボタンをクリックすると、(特に変更しなければ)「C:\khcoder3」というフォルダにすべてのファイルが解凍されます。解凍されたkh_coder.exeを実行すると、KH Coderが起動します。

KH Coderをはじめてご利用の方には、チュートリアルを一読されることを強くお勧めします。

Mac

MacでKH Coderを利用するには2つの方法があります。1つはソースコードから起動する方法で、費用はかかりませんが、必要なソフトウェアの準備に煩雑な設定が必要です。

もう1つは、有償サポートの一環としてご提供中の自動設定ソフトウェアを使う方法です。この方法であればMacでも比較的手軽にKH Coderを利用できます。使用法・使用条件は、KH Coder 2(安定版)の場合に準じますので、必ず事前にご確認ください。

ソースコード (Linux / Mac / Windows共通)

khcoder-3a10L.tar.gz (2017 11/07)

Perlで記述されたソースコードです。必要に応じてKH Coderの処理内容を確認したり、機能を付け加えたりといったことを、自由に行っていただけます。必要なソフトウェアが揃っていれば、Linux・Mac・Windowsを問わず動作します。

 

更新履歴

Version 3.Alpha.10での変更点

  • これまでよりもサイズの大きなExcelファイルに対応した
    • 新規プロジェクトの作成時にサイズが大きいExcelファイルを開くと、列の選択ができるようになるまでにKH Coderが固まったまま長い時間がかかったり、KH Coderが異常終了してしまう問題を修正した。
    • 「新規プロジェクト」画面で「OK」をクリックした時の処理についても、データ全体をメモリ上に読み込まず、1行ずつ処理するように修正し、メモリ消費量を抑えた。
  • 共起ネットワーク
  • 対応分析に「原点付近を拡大」オプションを追加[スクリーンショット]
  • カラーユニバーサルデザインに対応[スクリーンショット]
  • 細部の調整
    • 抽出語リストをExcel形式で書き出す際、従来は*.xls形式を用いていたが、*.xlsx形式を用いるように変更した(3a10i)。実際に問題が生じていたケースは希だろうが、XLS形式に起因する行数制限等が緩和された。
    • 「複合語の検出」時に、複合語リストを*.xlsx形式で出力するようにした。従来のcsv形式だと、環境によっては文字コードの問題や、区切り文字の問題が生じるようだった。
  • バグ修正
    • 文書のクラスター分析の結果を保存しようとするとエラーになるバグを修正。※掲示板でお知らせいただき、大変ありがとうございます。このバグは3.Alpha.10で混入したものでした。
    • Windows版で、複数言語の文字が混在していたりロシア語データを扱う際に、プロットの作成や保存に失敗する場合がある問題を修正した(3a10j)。

[2017 10/05]

Ver. 3.Alpha.9での変更点

  • 共起ネットワークの機能を拡充
  • 日本語UTF-8の分析対象ファイルに、可能な範囲で対応した。ただし以下の制限がある。
    • 「新規プロジェクト」画面で「ChaSen」ではなく「MeCab」を選択しなければならない。
    • 基本多言語面(Basic Multilingual Plane)に入っていない文字はPerl/Tkの制限で画面上に表示できない。こうした文字は前処理時にすべて「?」に変換される。
    • Windows版のRは、現在のロケールに含まれない文字を読み込めない。例えば日本語データ分析時には、ハングル文字や中国語漢字のようなCP932(Shift JIS)に含まれていない文字を読み込めない。こうした文字は、Rを用いた分析時にはHTMLの数値文字参照に変換される。
    • 「分析対象ファイルのチェック」機能はChaSen向けに設計されており、UTF-8には対応していない。特に、自動修正を「実行」すると、EUC-JPで定義されていない文字がすべて削除されるので注意が必要。
  • 細部の調整
    • 抽出語リスト作成時に「頻出150語」を選択した場合、これまでは「感動詞」「未知語」を除外していた。一方で、対応分析・共起ネットワークなどの多変量解析のデフォルト設定には、これら2つの品詞が含まれていた。そこで品詞選択を統一するために、「頻出150語」にも「感動詞」「未知語」を含めるようにした。
    • 数値を入力する欄に、全角の数字を入力してもエラーにならないようにした。
    • BOM付きの分析対象ファイルに対応した。
    • Windows版パッケージに添付のHanDicを最新版に更新した。
  • バグの修正
    • 「分析対象ファイルのチェック」を行なった後、見つかった問題点の詳細を「画面に表示」すると、KH Coderが異常終了する場合がある問題を修正。
    • 前処理の直後にショートカット・キーが機能しなくなる問題を修正。
    • 容量の大きいデータを分析しようとした時にMySQLエラー「lost connection to mysql server during query」が発生する場合がある問題を修正した。

[2017 08/03]

Ver. 3.Alpha.8での変更点

  • ドイツ語データから従来よりも正確に言葉の基本形を取り出せるようになった。FreeLingの新しいバージョン(4.0)を利用することで実現。
  • スロベニア語データの分析に対応した。同じくFreeLing 4.0を利用。
  • Windows版パッケージに同梱の韓国語データ分析用の辞書「HanDic」を最新版に更新。
  • プロットに凡例(カラー・バブル等)を追加
  • 細部の調整
    • 共起ネットワーク作成時に、従来のJaccard係数だけでなく、Cosine係数やEuclid距離を選択できるようになった。
    • UIの微修正により、操作性の改善を図った。Rによる多変量解析や描画に失敗した際、何度もエラーメッセージが表示されていたのを改善し、必要なエラーが1度だけ表示されるようにした。また分析対象ファイルとしてExcel・CSVファイルを登録したプロジェクトでは、対応分析の画面を開いたとき、デフォルトで「抽出語×外部変数」が選択されるようにした。
    • 外部変数の値は最大2万字まで入力可能にした(従来は250文字まで)。ただし変数名は従来通り250文字まで。付加的な情報として長めの文章を入力しておき、「文書表示」画面で閲覧・確認したいといった場合むけの変更。
    • OSの言語が日本語以外の場合は、メニューやボタンの表示を自動的に英語に変更するようにした。
    • 対応分析の際に、変数の値が2種類しかない場合は、成分を1つだけ抽出し、その1つをプロットのX軸Y軸の両方に用いるようにした。
  • バグ修正

[2017 01/15]

Ver. 3.Alpha.7での変更点

  • H1からH5タグで括った見出しの扱いを変更した。
    • こうした見出しも1つの「文」と見なして数えるのが従来の仕様であった。しかしExcel形式のファイルを読み込んだときや、多数のテキストファイルを自動的に1つにまとめた時には、データを区切るために、自動的に見出し文が挿入される。こうした自動挿入された単なる区切りは、「文」として数えないようにした。
    • 詳細は同梱マニュアルのA.2.1節、「それぞれの単位でのコーディングや検索」
      の項に記載。
    • この問題については掲示板でご示唆をいただきました。ありがとうございます。

[2016 03/28]

Ver. 3.Alpha.6での変更点

  • ロシア語およびカタロニア語のデータ分析に対応した。語の抽出にはFreeLingを利用。
  • フランス語・イタリア語・ポルトガル語・スペイン語への対応が改善した。従来は単純なルールで語尾を切り落とすことしかできなかったが、FreeLingを使うことで、より正確に基本形に直して抽出できるようになった。

[2016 01/20]

Ver. 3.Alpha.5での変更点

  • 文字コード関連の細かなバグをいくつか修正した。

[2016 01/14]

Ver. 3.Alpha.4での変更点

  • 共起ネットワークコマンドに「係数を表示」オプションを追加した[スクリーンショット](3.Alpha.4a)。
    • 共起関係の強さ(Jaccard係数)をネットワークに表示する
    • 線が密集すると読み取りにくくなるが、「最小スパニング・ツリーだけを描画」オプションと併用すると読み取りやすくなる
  • 共起ネットワークをGraphML形式およびPajek形式で保存できるようにした[スクリーンショット1][スクリーンショット2](3.Alpha.4b)。
  • 対応分析と多次元尺度構成法の結果をCSV形式で保存できるようにした[スクリーンショット1][スクリーンショット2](3.Alpha.4c)。ExcelのほかJMPやSPSSなど、他のソフトウェアでプロットを作り直したい時には便利だろう。
  • 画面表示(メニュー・ボタン・ラベル等)の言語として中国語と韓国語を追加した。
    • ※ただし、KH Coderに詳しくない方に翻訳をお願いしたので、おそらく訳が完全ではない部分もあると思います。お気づきの点がありましたら、より良い訳し方とあわせてお知らせいただけると大変ありがたく存じます。
  • MeCab向け韓国語辞書「HanDic」の新しいバージョンがリリースされていたので、同梱のHanDicを新しいバージョンに差し替えた。

[2015 11/29]

Ver. 3.Alpha.3での変更点

  • 韓国語データの分析に対応した。
    • 韓国語データから語を取り出すために、MeCab向けの韓国語辞書「HanDic」を利用(Windows版パッケージには同梱)。
    • なおKH Coderで利用するために「HanDic」に付属のdicrcファイルに次の記述を追加している。
      ; ChaSen
      node-format-chasen = %f[6]\t%M\t%f[5]\t%F-[0,1,2]\t%f[3]\t%f[4]\n
      unk-format-chasen = %f[6]\t%M\t%f[6]\t%F-[0,1,2]\t\t\n
      eos-format-chasen = EOS\n
  • MDS(多次元尺度構成法)コマンドを拡充した[スクリーンショット](3.Alpha.3d)。
    • SMACOFアルゴリズムを選択できるようにした。
    • 「ランダムスタートを繰り返してより良い解を探す」オプションを追加した。
  • バグの修正
    • 「語の取捨選択」画面の「ファイルから読み込み」機能が正常に機能しない場合がある問題を修正した。
    • コンソール出力が一部文字化けしていた問題を修正した。
    • 韓国語版Windows上では起動しない問題を修正した(3.Alpha.3a)。
    • ユーザーが自身でRと最新版のigraphパッケージをインストールしていると、共起ネットワーク作成に失敗する場合がある問題を修正した(3.Alpha.3b)。
    • 韓国語データの分析時に、「外部変数と見出し」画面で「特徴語」「一覧」をクリックするとエラーになる問題を修正した(3.Alpha.3b)。
    • 「分析対象ファイルのチェック」実行や、その後の「自動修正」に失敗する場合がある問題を終始した(3.Alpha.3d)。

[2015 11/01]

Ver. 3.Alpha.2での変更点

  • 細部の調整
    • 外部変数の値の表示順が従来はVer. 2と異なっていたので、Ver.2と同じ順番で表示されるようにした。これによってコーディング結果のクロス集計や外部変数を用いた対応分析の結果が、並び順のような見た目も含めて、Ver. 2の結果と同一になった。
    • 抽出語とコードを使った各種の集計結果がVer. 2と同じになることを確認した。
    • Ver. 2.00aおよび2.00bでの修正点をこちらにも取り入れた。
  • バグの修正
    • 前処理実行時にMySQLエラーが表示され、前処理が完了できない場合がある問題を修正した。
    • 中国語データのKWICコンコーダンスで、単語間に余分なスペースが入るバグを修正した。
[2015 10/05]

Ver. 3.Alpha.1での変更点

  • 中国語データの分析に対応
    • 中国語データは簡体字・UTF-8で準備する必要がある。Stanford Word SegmenterおよびStanford POS Taggerを用いて中国語データから語を抽出。
    • 中国語データのKWICコンコーダンスで、単語間に余分なスペースが入っていた問題を修正した(3.alpha.2)。
  • アクセント付きアルファベットを保存・表示できるようになった。
    • フランス語・ドイツ語・スペイン語などをあつかう際、これまではアルファベットについているアクセント記号を削除していた。このアクセント記号を保存・表示できるようになった。
  • Ver. 3で仕様が変更になった点
    • 「文書×抽出語」表における文書長(文字数・length_c)は、ver. 2では半角文字を0.5文字、全角文字を1文字とカウントしていたが、Ver. 3では半角全角にかかわらず1文字と数えるようになった。
    • 全角記号のみからなる語がver. 2では「未知語」品詞を与えられていたが、ver. 3では「その他」品詞を与えるようになった。
    • ver. 2.xでは外部変数の大文字と小文字が区別されたが、3.xでは大文字と小文字を区別せず、同じものと見なしている。
    • 「KWICコンコーダンス」および「関連語検索」機能で表示の順番を決めるときに、たとえば語の出現回数が同じ回数であるといったように、同順・同値になった部分があると、その部分の表示順がver. 2とは一部異なっている。
[2015 08/15]

 

[ KH Coder ]

Hosted by SourceForge

  *   Copyright © 2001- 樋口耕一
E-Mail: