Clone方法

非常に大きなファイル(50MB以上)を含むため、データセットはGit LFSを使用しております。

git lfs clone git@github.com:ogadra/adverb.git

でクローンするか、以下の手順に従ってデータセットを直接BCCWJからダウンロードしてください。

データセットの準備

BCCWJ、現代日本語書き言葉均衡コーパスを用いる。

検索条件

短単位検索

キー == {"語彙素読み" : $任意の副詞$, "品詞" : {"大分類" : "副詞"}}

検索対象

お好みで。

検索動作

文脈中の区切り記号 == "なし" 文脈中の文区切り記号 == ";" 前後文脈の語数 == (可能な限り長く)

ダウンロードオプション

文字コード == "UTF-8"

このレポジトリにあるデータセットの検索条件式

キー: (語彙素読み="ケッシテ" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="マッタク" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="ゼンゼン" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="オソラク" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="タブン" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="キット" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="ナゼ" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="モシ" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="タトエ" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="ゼヒ" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF";
キー: (語彙素読み="マサカ" AND 品詞 LIKE "副詞%")
  WITH OPTIONS tglKugiri="" AND tglBunKugiri=";" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="500" AND unit="1" AND encoding="UTF-8" AND endOfLine="CRLF"

実行環境

adverb.py -> { 'Python': '3.8以上(32bit)', '必要追加パッケージ': ['mecab', 'cabocha-python'] }

makeGraph.py -> { 'Python': '3系', '必要追加パッケージ': ['matplotlib', 'pandas'] }

regression.py { 'Python': '3系', '必要追加パッケージ': ['matplotlib', 'pandas', 'scikit-learn'] }

実行方法

adverb.pyでデータセットから年別データ(result.csv)を作成
makeRate.pyでresult.csvから5年毎の対応率(result-rate.csv)を作成
makeGraph.pyでresult-rate.csvからグラフ画像(imgs/graph.png)を作成
regressionGraph.pyで「ゼンゼン」の対応率と回帰直線を含むグラフ(imgs/regression.png)を作成
regressionScore.pyで「ゼンゼン」の対応率と回帰直線の係数、切片、決定係数を計算

対応率のグラフ画像

その他ファイルの解説

adverbList.json -> 分析する呼応の副詞のデータを入力する。自分でデータセットを用意する場合は要編集。adverb.pyで使用。
exception.csv -> 呼応の関係が見られなかった文章のデータ。adverb.pyより作成。
regressionScores.py -> 全ての副詞に対する対応率と回帰直線の係数、切片、決定係数を計算。コンソールに出力。

分析環境

レポジトリ作成者は以下の分析環境で分析した。

係り受け解析		統計
Anaconda Python	3.9.1(32bit)	Anaconda Python	3.9.1(64bit)
cabocha-python	0.69.1	matplotlib	3.3.2
mecab	0.996.2	pandas	1.2.1
		scikit-learn	0.23.2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Clone方法

データセットの準備

検索条件

短単位検索

検索対象

検索動作

ダウンロードオプション

実行環境

実行方法

その他ファイルの解説

分析環境

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
data		data
imgs		imgs
.gitattributes		.gitattributes
LICENSE.md		LICENSE.md
README.md		README.md
adverb.py		adverb.py
adverbList.json		adverbList.json
exception.csv		exception.csv
makeGraph.py		makeGraph.py
makeRate.py		makeRate.py
regressionGraph.py		regressionGraph.py
regressionScore.py		regressionScore.py
regressionScores.py		regressionScores.py
result-rate.csv		result-rate.csv
result.csv		result.csv

License

ogadra/adverb

Folders and files

Latest commit

History

Repository files navigation

Clone方法

データセットの準備

検索条件

短単位検索

検索対象

検索動作

ダウンロードオプション

実行環境

実行方法

その他ファイルの解説

分析環境

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages