Skip to content

lamblabo/kantan-ej-dictionary

 
 

Repository files navigation

簡短英日辞典

英日辞典です。JSON形式で提供されます。

英語の見出し語ごとに、複数の日本語訳が列挙されています。また、見出し語ごとに、出現頻度情報やレベル情報を持っています。

元となった辞典は、Jam Systems Inc.による、ANC(American National Corpus)準拠 英和頻度辞典(28,000語)です。その辞典の見出し語は、American National Corpus Frequency Dataで公開されている、出現頻度別見出し語リストから選ばれています。

英語による字幕の単語ごとに、日本語の意味をルビとして振る目的で編集を始めました。

方針

  • 訳語はなるべく短く、少なく
    • 字幕に振るルビを簡潔にするため
    • 字幕からは辞書へのリンクを貼るため、大まかな意味が取れればよいため
  • 見出し語の出現頻度やレベルを持つ
    • ルビを振らなくてもよい頻出語や平易な単語を区別するため

規則

  • 人名、地名などはcapitalizeされた形で見出し語にする
  • 訳語ではなく、語の解説の場合には[]で囲む
    • 例: are [be動詞]
  • 他の見出し語のスペル違いの場合には、"=他のスペル"とする
    • 例: calif =caliph
  • 過去形、過去分詞形は不規則活用の場合見出し語として採用する
    • 例: sought
  • 訳語は、その意味で使われる順番に並べ、品詞ごとにグループ化しない
  • 外来語として同じ意味で普及している語は外来語を訳語として採用する
    • 例: mint ミント (ハッカではない)
    • 例: timothy チモシー (オオアワガエリではない)
  • 略語の.は省く
    • 例: Mr (Mr.ではない)
    • 例: RIP (R.I.P.ではない)
  • 訳語でひらがな・カタカナ・漢字はなるべく漢字を使う、ただし漢字表記が一般的でない場合は他の表記を使う
    • 例: 玉葱 人参 (not タマネギ にんじん)
    • 例: ラクダ ワニ (not 駱駝 鰐)

ANC準拠 英和頻度辞典との差分

  • 訳語の見直し、削減
    • 具体化(例: grackle: ムクドリの類 => 九官鳥)
    • 表記の一般化(例: Benin: ベニン => ベナン)
    • 口語化(例: penis: 陰茎 => チンポ)
    • 表記の違いは代表例のみ採用(例: cat: ネコ/猫 => 猫)
    • 人名について読み方を追加(例: John: ヨハネ => ジョンを追加)
    • 略語の省略前表記の削除
    • 英語での解説を削除(例: clothespin: clothes peg)
  • 百科事典的説明の削除
    • 人名がアメリカ大統領だった場合の生年などプロフィールの削除
    • ギリシャ神話の神のエピソードの削除
    • 人名が愛称だった場合、元の名前を削除 (例: Bill: William)
    • 国名の正式名称 都市名がどの国の首都であるかなどを削除
    • 外来語のままで充分意味が伝わる場合、それ以外の訳語を削除(例: stagflation: 景気後退下のインフレ/スタグフレーション => スタグフレーションのみ採用)
    • わかりにくい語の解説を削除 (例: wallflower": 壁の花(舞踏会で相手のいない女性) => 解説を削除)
  • 一部野球用語の削除
  • 訳語内での品詞の削除
  • 【地震】などの削除
  • 他の見出し語への参照の削除
  • 誤りの修正 (例: Bad 英国航空 Peeking 北京)
    • 見出し語の一部は大文字化/capitalized/小文字化 (例: osha => OSHA)
    • 見出し語の一部は削除(例: Pensylvanium)
    • 誤りの全ては修正できていません
  • 半角カナの削除
  • アルクによるSVLレベルの付与
    • 過去形、過去分詞形は同一形が存在すればそのレベルを、存在しなければ基本原型のレベルを付与した
    • 例外: pent: [penの過去・過去分詞形]などはレベルを付与していない。
    • 例外: givenについてはSVLレベル7だが、giveの過去分詞形として捉えてレベル1とした
    • 例外: gottaなど、複合動詞の短縮形などは、動詞のレベルを付与した
    • 例外: theなどの頻出語で、レベル1相当と思われるものは、レベル1を付与した

元となった辞典をHTMLからTSVファイルに変換したものは、sources/ancdic.tsvに格納してあります。 また、ANCの頻度順辞書もsources/ANC-all-count.txt, sources/ANC-spoken-count.txt, sources/ANC-written-count.txtに格納してあります。

ライセンス

MITライセンスです。ただし、sourcesディレクトリに入るファイルは含まれません。

今後の方針

やること

  • オノマトペ、擬音語、擬態語を増やす (ref. http://d.hatena.ne.jp/rhb/20120606/p1 )
  • 間投詞を増やす (ref. http://d.hatena.ne.jp/rhb/20121201/p1 )
  • 訳語を減らす
    • 字幕につけるルビを簡潔にするため
    • 基本1品詞ごとに3つまで、品詞の区別がなければ4つまでに限定したい
  • 未収録の頻出見出し語を補う
    • アルクのSVLや、COCA高頻度5,000語リストにはあるが、収録されていない見出し語がある
  • 訳語を口語的にする
    • 英語字幕はほとんど口語であるため
  • 品詞別に訳語をつける(名詞、動詞、形容詞、副詞、前置詞、接続詞、etc)
    • 英語の字幕を簡易なtaggerにかけて、品詞をを取得し、適切なルビのみを表示するため
  • 百科事典的な補足情報をつけられるようにする
    • 固有名詞などで、歴史的背景を知らないと分からないものを補足するため
    • 俗語など、使われる状況を補足するため
    • ニュアンスを表現するため(例: sin (宗教・道徳上の)罪 crime (法律上の)罪)
      • 訳語を短くすると、ニュアンスを落とさざるを得ない
  • 自動詞、他動詞で訳語を使い分ける。他動詞の場合は「…を」などをつける

やらないこと

  • 発音記号の付与
    • 出来たらいいが大変なので
    • 英語の字幕の場合、ほとんどは発話されているので
  • 名詞のcountable/uncountableの区別
  • 英/米の区別

悩み

  • gerund/progressive formやadjectival past participle/past participleでの意味の出し分け
    • 見た目一緒だけど、なるべく分けたい。品詞のところに情報を入れられるか。

About

English-Japanese dictionary

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Ruby 75.8%
  • Shell 24.2%