Rakuten infoseek

辞書

テキストマイニング

デジタル大辞泉

テキスト‐マイニング(text mining)
文章を対象としたデータマイニングソーシャルメディアやウェブ上の口コミなどの大量の文字情報を自然言語処理などで分析し、有用な情報を抽出する技術を指す。

出典:小学館
監修:松村明
編集委員:池上秋彦、金田弘、杉崎一雄、鈴木丹士郎、中嶋尚、林巨樹、飛田良文
編集協力:田中牧郎、曽根脩
(C)Shogakukan Inc.
それぞれの用語は執筆時点での最新のもので、常に最新の内容であることを保証するものではありません。

朝日新聞掲載「キーワード」

テキストマイニング
ツイッターなどネット上の文字情報を整理するのに使われる技術。文章を単語単位にばらし、名詞動詞など品詞ごとに分類する。特定の単語の出現回数を測ったり、動詞や助詞の位置関係から、文章の内容をある程度まで自動で判定したりすることができる。リアルタイムで分析結果が出るため、自社製品の評判などを調べる際に活用する企業が増えている。
(2013-07-03 朝日新聞 朝刊 特設M)

出典:朝日新聞掲載「キーワード」

日本大百科全書(ニッポニカ)

テキストマイニング
てきすとまいにんぐ
text mining
コンピュータを使い、文章のデータから役にたつ情報や問題点などを抽出し分析する手法。マイニングとは英語で「地下資源の採掘」のことで、大量の文書データから有用な情報や必要な知識を発掘することが語源となっている。文章を句読点や慣用句、品詞などでくぎり、くぎられた一つ一つの要素がもつ、順序、つながり、使用頻度、時間的変化、語意の性質といった特性からデータマイニングの手法で解析することで、目的とする情報や傾向を抽出することができる。
 人工知能の研究の一部として1980年代後半に登場した分析方法で、一般的な言語学や自然言語処理、言語情報学などのさまざまな分野の研究が応用されている。インターネットの普及によって電子化された文章のデータ収集が容易になり、テキストマイニングは幅広い分野で使うことができるようになった。ビジネスのマーケティングや市場調査分野では、ブログやミニブログなどのソーシャルメディアへの書き込みから、特定の商品に対する反応や消費動向を分類して解析を行い、商品の評価や問題点を集計してグラフなどへ可視化する手法が用いられている。
 日本語のテキストマイニングの場合、分析結果の信頼性を向上させるためにも、どのように文章をくぎるかという「分かち書き処理」が、当初から重要な課題になっている。分かち書き処理を使った分析では、まず文章を形態素(意味をもつ最小の言語単位)という要素にくぎり、小分けした要素に対し、文法的な属性を特定するための形態素解析を実施する。テキストマイニングではこのような形態素解析の結果を集計し、さらに必要な情報を選別する意味解釈の解析を施すことで、特定の内容を抽出している。[編集部]

出典:小学館 日本大百科全書(ニッポニカ)
(C)Shogakukan Inc.
それぞれの解説は執筆時点のもので、常に最新の内容であることを保証するものではありません。

最新 心理学事典

テキストマイニング
テキストマイニング
text mining
テキストデータを対象としたデータマイニングをとくにテキストマイニングとよぶ。データマイニングdata miningと同様,大規模なデータの中から有益な情報を見つけ出して抽出しようとするものである。ただしテキストマイニングでは,データが文書集合document collectionであり,通常のデータマイニングのようには構造化されていない点がデータマイニングとは異なる。文書集合とは任意のテキストベースの文書documentを集めたものであり,通常その文書数は数千から数千万に及ぶ。たとえば,『Psychological Review』誌に掲載された論文はこれまでに5000編を超えているが,これも文書集合の一つである。またその要旨だけを集めたものや,特定のキーワードで絞り込んだ結果得られた論文を集めたものも,それぞれ一つの文書集合である。文書集合は初期状態から変化しない静的なものと,随時変更や修正などが加わる動的なものに分類できる。先の例ではそれぞれの論文が文書である。

 テキストマイニングもデータマイニングと同様のプロセスで行なわれる。データマイニングでも,マイニングの前処理であるデータクリーニングとデータテーブルに多くの労力が割かれるが,テキストマイニングではこの段階が本質的であるといえる。

 テキストマイニングの前処理では文書は多くの場合,文章あるいは語の単位で区切られる。さらに,品詞の同定とタグ付け,構文解析,カテゴリー化,語句やコンセプトの抽出とラベル付けなどが行なわれ,マイニングのための定型のデータセットが構築される。日本語のテキストの場合,テキストを分かち書きして語を同定する必要もある。さらに必要に応じて文書の縮約や階層化が行なわれる。この段階においてテキストマイニングは情報検索,情報抽出,コーパスに基づく計算機言語学などの自然言語処理の技術に頼る部分が大きい。これらのプロセスは文脈や目的に応じて試行錯誤的に行なわれる。マイニングプロセスでは,主として要素の分布distribution,頻出集合frequent set,連合associationの同定とその分析や特徴の抽出が行なわれる。要素としては語word,語句term,キーワードkeyword,コンセプトconceptが用いられることが多い。 →データマイニング
〔吉村 宰〕

出典:最新 心理学事典
Copyright (c) Heibonsha Limited, Publishers, Tokyo. All rights reserved.
それぞれの記述は執筆時点でのもので、常に最新の内容であることを保証するものではありません。

テキストマイニング」の用語解説はコトバンクが提供しています。

テキストマイニングの関連情報

他サービスで検索

「テキストマイニング」のスポンサー検索

(C)The Asahi Shimbun Company /VOYAGE GROUP, Inc. All rights reserved.
No reproduction or republication without written permission.