解析対象となるデータについて教えてください。

扱えるデータの形式は?

  1. CSV形式のデータ (ExcelやAccess、通常のリレーショナルDBから、本形式でデータを取り出すことができます)
  2. リレーショナルDBからネットワーク経由でデータを取得 (ODBC準拠のRDBが対象)
  3. ひとつのフォルダ内に蓄積されている複数のプレーンテキストファイル

扱えるデータ量はどれくらいですか?

解析対象のデータ量に制限はありません。また、ひとつのデータに含まれるテキストの量にも制限はありませんので、数語のメモ記録から数百行に亘るレポート文書まで解析可能です。

WordやPDF文書は解析出来ますか?

はい、可能です。一般的なテキスト抽出ツール(一万円ほどで市販されています)を使って、テキストデータだけを簡単に取り出せますので、その後は通常のプレーンテキストを読み込む方法でツールに取り込むことが出来ます。この方法にて、HTMLデータも読み込めますので掲示板やブログ記事も解析可能です。

Oracleなどのデータベースと連携できますか?

はい、連携可能です。Oracle以外にもODBC接続に対応している一般的なリレーショナルDBでしたらオンラインで連携することが可能です。

他のソフトウェアとのデータ互換性はありますか?

Excelや多くのリレーショナルDBがサポートしている、CSV形式でのデータ入出力が可能です。例えば、リレーショナルDBに蓄積された膨大なデータをレクシオンProで層別分類し、その結果をCSV形式でExcelに渡してグラフやレポートに加工・編集する、といった有機的な連携が可能です。

ページの先頭

データ量と解析処理時間の目安は?

2000データ(500文字/データ程度の情報量として)を10分間ほどで分類いたします。ただし、これはツールを稼働させるマシンの性能およびデータ内容に大きく左右されますので、あくまで好条件での目安とお考えください。

ページの先頭

レクシオンプロの利用に適したマシンのスペックは?

下記が、数千を超える大量のデータを分析する際の推奨スペックとなります。ただし、データ量が数百~千データ程度でしたらCPU:1GHz、搭載メモリ:256MB程度でも充分に使用することが可能です。

  • H/W:PC/AT互換機
  • OS:Windows 7 pro(32bit)/Vista Business(32bit)/XP pro/Server 2003
  • CPU:2GHz以上のものを推奨
  • 搭載メモリ:2GB以上

ページの先頭

レクシオンプロで解析すると、どんなことが解るのですか?

本ツールは大量のテキストデータを分析して重要語をリストアップし、各テキストデータの内容を把握して層別分類する処理を計算機で自動実行するものです。具体的には、下記の出力が得られます。

  • 重要度スコア付きのキーワードリスト、熟語リスト
  • 層別分類の結果を可視化する情報マップ(階層ツリー図)
  • 分類結果をグラフ化する各種レポート(トピック分布レポート、属性相関分析レポート)

ページの先頭

“重要語リスト”や“分類のやりかた”をツールに教える必要がありますか?

解析に使う重要語は、アルゴリズムが対象データから自動抽出します。分類の指針についても、専用に開発された人工知能アルゴリズムがデータ内容から最適判断しますので、解析者がツールに設定する必要がありません。この特徴により、「どのように分類すべきか分からないデータ」から分類の目安を手早く見つけ出すのが得意なツールです。

ページの先頭

重要語の抽出について教えてください。

重要語の抽出はどのように行うのですか?(重要度の判断はどのようにするのですか?)

文章を単語に分解した後に「出現頻度」と、「共起度」という二つの指標を調べて、各語の重要度を判断しています。この独自アルゴリズムにより、“出現は稀だが文脈全体に関わる重要な語”を高精度に抽出することが可能となっています。(尚、本機能は大澤教授(東京大学 システム創成学科)が開発されたキーワード抽出アルゴリズム「キーグラフ」を装備することによって実現されています)

重要語は、順位に意味があるのですか?

重要語リスト画面では、上位に位置するものほど重要度が高い語となります。また、この重要語リスト(重要度付き)をテキスト形式のファイルとして外部に取り出す事が出来ますので、レクシオンプロをキーワード抽出ツールとして活用することも可能です。

重要語の数はどうやって決まるのですか?

自動抽出する重要語の数は、スライドバー操作にて任意に設定可能です。このスライドバーは、通常の分類処理では最小値(レベル1)で利用します。特定カテゴリの重要語だけを使って意図的な分類をする場合等には、ベースとなる重要語をより多くリストアップできるよう、大きめのレベルに設定します。

ページの先頭

解析に際して必要となる辞書について教えてください。

辞書にはどんな種類がありますか?

レクシオンプロでは、以下のような辞書を利用しています。

  1. 重要語辞書:本ツールでは、解析対象のデータから重要語リストを自動抽出します。これをそのまま利用して分類処理を実行することも十分可能ですが、解析者が手を加えることでより高精度な分類処理が実現されます。具体的には、解析に不要と思われる語をリストから選択してノイズ語登録する操作が、これに該当します。
  2. ノイズ語辞書:この辞書に登録された語は、解析対象から外されます。正しい分類の妨げになりそうな語をこの辞書に設定することで、より精度の高い分類処理が実現されます。なお、デフォルトのノイズ語辞書が予めツールに組み込まれていますので、一般的なテキストデータ(新聞記事等)はこれをそのままご利用いただけます。
  3. 複合語・類義語辞書:複合語(デジタル+カメラ=デジタルカメラといった熟語)や、類義語(“デジタルカメラ”と“デジカメ”等、同意だが表記が異なる語)を設定する辞書です。この辞書は必要に応じてユーザーが登録する必要がありますが、重要語リストや複合語候補リストといったベース情報が自動抽出されますので、これらを参考に効率よく編集することができます。

類義語や複合語を扱うことが出来ますか?

扱うことが可能です。ツール内に専用の辞書編集画面が用意されておりますので、元データから抽出したベース情報を参照しながら必要な語を登録します。特に、複合語は登録すべき語が自動的にリストアップされますので、登録作業が非常にスムーズです。
また、本文中で各語がどのように使われているかを検索・閲覧できる、用例参照機能も装備されております。

辞書登録は可能ですか?操作は簡単ですか?

ユーザーにて編集可能な辞書は下記の3つですが、ツール内に専用の編集画面が用意されており、特殊な手順を覚えることなしに容易に編集可能です。

  • 重要語辞書
  • ノイズ語辞書
  • 複合語・類義語辞書

ページの先頭

原文の要約をしてくれるのですか?

高精度に抽出された重要語に基づいて、各データのポイントとなる部分を自動的に要約いたします。この機能により、生データに多量のノイズ的記述が含まれている場合でも、容易に要点を把握する事ができます。

ページの先頭

解析出力の意味について(評価版ユーザーの皆様へ)

“分類グループ”とは?

類似した内容を持つデータの集合が“分類グループ”です。ひとつの分類グループは、ひとつの話題(トピックス)を表しています。各分類グループには、識別のためにグループ番号が付けらます。

“分類階層レベル”とは?

複数の分類グループ間の関係性を情報マップで可視化していますが、このマップにおける各分類グループの階層位置を表しています(階層レベルの意味については、情報マップの項をご参照ください)

“分類キーワード1・2”とは?

各分類グループを形成する際にキーとなった語ペアです。結果的に、各分類グループの内容を代表するラベル情報となっています。(この情報が自動的に得られますので、情報マップをみて各グループの概要を直感的に把握することが出来ます。)

情報マップ(階層ツリー図)の読み方

  1. マップ中のノード(楕円のシンボル): これは、分類グループを表しています。シンボル内の番号が、分類グループ番号に該当します。分類グループは、類似内容を持つデータが2個以上集まった場合に形成されます。
  2. 階層レベル: このマップでは、一番下に位置するグループは狭い概念でくくられた話題であり、上位に行くに従って複数の話題が少数の広い概念の話題に集約されていきます。 従って、階層レベルが低いほど具体性の高い“枝・葉のトピック”であり、レベルが高ければ複数の話題を包括する“幹のトピック”ということになります。
  3. ノード間のライン: 各グループ間に類似性があることを示しています。

ページの先頭