-
保護中: 【第1回週末ゲリラワーク】データ
この投稿はパスワードで保護されているため抜粋文はありません。
メンバーの方が分かりやすいようにスプレッドシートに手順をまとめてくれました。
https://docs.google.com/spreadsheets/d/1GQsJSErRmXi8nqxVtqen97HBnuD_d8gbP7J8A8-JNZE/edit?usp=sharing
箇条書き集の言語解析
以下は直接サイト作成に使う目的ではありませんが皆さんの労力が7万文字超という膨大な結果になりましたのでどんな要素で構成されているのか分析してみました。
ざっと流し見で結構ですので、どんな文字、単語に集中しているかを感じるだけでも何を書いていけばいいのか見えてきます。
様々な分析手法で切り取った分析データをご覧いただき参考にされてください。
ワードクラウド
スコアが高い単語を複数選び出し、その値に応じた大きさで図示しています。 単語の色は品詞の種類で異なっており、青色が名詞、赤色が動詞、緑色が形容詞、灰色が感動詞を表しています。
単語出現頻度
文章中に出現する単語の頻出度を表にしています。単語ごとに表示されている「スコア」の大きさは、 与えられた文書の中でその単語がどれだけ特徴的であるかを表しています。 通常はその単語の出現回数が多いほどスコアが高くなりますが、 「言う」や「思う」など、どの文書にもよく現れる単語についてはスコアが低めになります。
共起キーワード
文章中に出現する単語の出現ハ゜ターンか゛似たものを線て゛結んた゛図です。出現数か゛多い語ほと゛大きく、また共起の程度か゛強いほと゛太い線て゛描画されます。
2次元マップ
文章中て゛の出現傾向か゛似た単語ほと゛近く、似ていない単語ほと゛遠く配置されています。距離か゛近い単語はグループにまとめ、色分けしています。
係り受け解析
係り受け解析では、「名詞」に係る「形容詞」「動詞」「名詞」についての解析結果を表示します。 「スコア」は、出現回数やその係り受け関係が全組み合わせのうちに占める割合などを複合的に判断し、独自に算出した数値です。 「スコア」が高いほど、よりその係り受け関係が重要であることを示します。 また、単語の後に「(否: 50%)」 などとついている場合、 集計された係り受け関係のうち50%が否定表現(例:「高い」→「高くない」)として使われていることを意味しています。 ネガポジは名詞にかかる形容詞がポジティブ(ネガティブ)な単語かどうかを表しています。
階層的クラスタリング
文章中での出現傾向が似た単語をまとまりとしてとらえられるよう樹形図で表したものです。グループは色分けして表示しています。