-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy pathstats.xml
115 lines (115 loc) · 11.1 KB
/
stats.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
<?xml version="1.0" encoding="UTF-8"?>
<treebank>
<!-- tokens means "surface tokens", e.g. Spanish "vámonos" counts as one token
words means "syntactic words", e.g. Spanish "vámonos" is split to two words, "vamos" and "nos"
fused is the number of tokens that are split to two or more syntactic words
The words and fused elements can be omitted if no token is split to smaller syntactic words. -->
<size>
<total><sentences>7664</sentences><tokens>242056</tokens><words>282384</words><fused>38333</fused></total>
<train><sentences>6075</sentences><tokens>191869</tokens><words>223881</words><fused>30459</fused></train>
<dev><sentences>909</sentences><tokens>25986</tokens><words>30239</words><fused>4010</fused></dev>
<test><sentences>680</sentences><tokens>24201</tokens><words>28264</words><fused>3864</fused></test>
</size>
<lemmas unique="15302" /><!-- وَ, هُوَ, فِي, ., لِ, بِ, مِن, ،, ", عَلَى, أَنَّ, إِلَى, اَلَّذِي, هٰذَا, كَان -->
<forms unique="24904" /><!-- و, ., في, ل, ب, من, ،, ه, ", ها, على, أن, ان, الى, إلى -->
<fusions unique="13846" /><!-- وقال, انه, أنه, ومن, فيها, وقد, وفي, وكان, وهو, بها, فيه, واضاف, لها, ولا, بما -->
<!-- Statistics of universal POS tags. The comments show the most frequent lemmas. -->
<tags unique="17">
<tag name="ADJ">29351</tag><!-- مِصرِيّ, جَدِيد, آخَر, أَوَّل, إِسرَائِيلِيّ, أَمرِيكِيّ, عَرَبِيّ, مُتَّحِد, فِلَسطِينِيّ, مَاضِي -->
<tag name="ADP">42555</tag><!-- فِي, لِ, بِ, مِن, عَلَى, إِلَى, عَن, مَعَ, بَينَ, خِلَالَ -->
<tag name="ADV">1092</tag><!-- هُنَاكَ, أَمسِ, أَيضًا, كَذٰلِكَ, فَقَط, حَتَّى, هُنَا, سِيَّمَا, مَعًا, ثَمَّةَ -->
<tag name="AUX">2154</tag><!-- سَ, قَد, كَان, لَيس, سَوفَ, مَا, هَل, رُبَّمَا, أَ, عَاد -->
<tag name="CCONJ">19784</tag><!-- وَ, فَ, أَو, كَمَا, حَيثُ, لٰكِنَّ, لِ, إِذَا, لِأَنَّ, مِمَّا -->
<tag name="DET">5896</tag><!-- اَلَّذِي, هٰذَا, مَا, ذٰلِكَ, مَن, كَيفَ, أَينَ, مَاذَا, كَم, مَتَى -->
<tag name="INTJ">8</tag><!-- مَرحَبًا, بِلَاش, حَيَّ, مَا -->
<tag name="NOUN">93705</tag><!-- يَوم, رَئِيس, دَولَة, وَزِير, شَرِكَة, مِصر, عَام, دُولَار, حُكُومَة, مِنطَقَة -->
<tag name="NUM">7758</tag><!-- مِليُون, أَلف, 15, 3, ثَلَاثَة, مِليَار, 6, 2, 8, 7 -->
<tag name="PART">2205</tag><!-- لَا, لَم, إِنَّ, إِلَّا, لَن, قَد, أَمَّا, اَل, هَل, رُبَّمَا -->
<tag name="PRON">10877</tag><!-- هُوَ -->
<tag name="PROPN">245</tag><!-- بِن, عَبداَللّٰه, عَبداَلعَزِيز, طٰهٰ, بُورسَعِيد, أَبُو, عَبداَلمُنعِم, نَرُوج, أَبُوظَبِي, أَبُورُدَينَة -->
<tag name="PUNCT">22445</tag><!-- ., ،, ", -, ), (, /, », «, : -->
<tag name="SCONJ">5457</tag><!-- أَنَّ, أَن, إِنَّ, إِن -->
<tag name="SYM">388</tag><!-- %, +, /, < -->
<tag name="VERB">21296</tag><!-- قَال, كَان, تَمّ, أَكَّد, أَعلَن, أَضَاف, أَشَار, وَصَل, ذَكَر, بَلَغ -->
<tag name="X">17168</tag><!-- ب, محمد, اف, وَاشِنطُن, عبد, أَفرِيقِيَا, مبارك, سُورِيَا, شَارُون, اَلسَّارس -->
</tags>
<!-- Statistics of features and values. The comments show the most frequent word forms. -->
<feats unique="37">
<feat name="Abbr" value="Yes" upos="X">504</feat><!-- ب, د, ف, أ, م, ر, كلم, ت, غ, كجم -->
<feat name="AdpType" value="Prep" upos="ADP">42555</feat><!-- في, ل, ب, من, على, الى, إلى, عن, فى, مع -->
<feat name="Aspect" value="Imp" upos="AUX,VERB">10224</feat><!-- يتم, يمكن, يكون, تكون, تصل, يجب, يصل, يقول, يذكر, تقوم -->
<feat name="Aspect" value="Perf" upos="AUX,VERB">11523</feat><!-- قال, كان, كانت, أضاف, تم, أكد, أشار, أوضح, ليس, أعلن -->
<feat name="Case" value="Acc" upos="ADJ,ADP,DET,NOUN,NUM,PRON">29086</feat><!-- ه, مع, بين, ها, بعد, خلال, اليوم, مليون, حول, قبل -->
<feat name="Case" value="Gen" upos="ADJ,ADP,DET,NOUN,NUM,PRON,PROPN">98249</feat><!-- ها, ه, التي, هم, مصر, دولار, هذه, الذي, العراق, هذا -->
<feat name="Case" value="Nom" upos="ADJ,ADP,DET,NOUN,NUM,PRON">19465</feat><!-- هو, هي, رئيس, وزير, الذي, التي, الدكتور, الحكومة, مصر, الرئيس -->
<feat name="ConjType" value="Oper" upos="SYM">5</feat><!-- < -->
<feat name="Definite" value="Com" upos="ADJ,NUM">45</feat><!-- الثالث, الأولى, الذاتية, السابع, القصيرة, الحادية, الخامسة, الطويلة, المستندي, الاربع -->
<feat name="Definite" value="Cons" upos="ADJ,NOUN,NUM,PROPN">38093</feat><!-- رئيس, مليون, وزير, كل, غير, مجلس, عام, بعض, يوم, نفس -->
<feat name="Definite" value="Def" upos="ADJ,NOUN,NUM,PROPN">59523</feat><!-- اليوم, المصرية, الحكومة, المتحدة, العراق, الرئيس, العام, المصري, الماضي, الخارجية -->
<feat name="Definite" value="Ind" upos="ADJ,NOUN,NUM">27596</feat><!-- مصر, دولار, جنيه, مايو, إسرائيل, جديدة, خاصة, عدد, أخرى, لبنان -->
<feat name="Foreign" value="Yes" upos="X">5097</feat><!-- واشنطن, سوريا, شارون, السارس, أفريقيا, روسيا, فرنسا, باول, تركيا, بوش -->
<feat name="Gender" value="Fem" upos="ADJ,AUX,DET,NOUN,NUM,PRON,PROPN,VERB">29136</feat><!-- ها, التي, هذه, المصرية, المتحدة, كانت, هي, العربية, جديدة, الدولية -->
<feat name="Gender" value="Masc" upos="ADJ,AUX,DET,NOUN,NUM,PRON,VERB">38293</feat><!-- ه, هم, قال, الذي, هذا, كان, هو, نا, المصري, الماضي -->
<feat name="Mood" value="Imp" upos="AUX,VERB">54</feat><!-- حاول, د, دعوا, حث, ابحث, احرص, اخدموا, افتحوا, اكسون, انتبه -->
<feat name="Mood" value="Ind" upos="AUX,VERB">8185</feat><!-- يتم, يمكن, يكون, تكون, يجب, يقول, يذكر, يعني, تعتبر, يرى -->
<feat name="Mood" value="Jus" upos="AUX,VERB">691</feat><!-- يكن, تكن, يتم, يمكن, يصدر, يحدد, يعد, تتجاوز, تعد, يستبعد -->
<feat name="Mood" value="Sub" upos="AUX,VERB">1348</feat><!-- يكون, تكون, تصل, يصل, يتم, تصبح, تقوم, يمكن, تدخل, تستطيع -->
<feat name="Number" value="Dual" upos="ADJ,AUX,DET,NOUN,NUM,PRON,VERB">1645</feat><!-- هما, البلدين, الجانبين, الطرفين, اسبوعين, الدولتين, يومين, وزيري, الماضيين, سنتين -->
<feat name="Number" value="Plur" upos="ADJ,AUX,DET,NOUN,NUM,PRON,VERB">25574</feat><!-- هم, نا, الولايات, الدول, الشركات, الذين, الوزراء, دول, شركات, أسعار -->
<feat name="Number" value="Sing" upos="ADJ,AUX,DET,NOUN,NUM,PRON,PROPN,VERB">134589</feat><!-- ه, ها, التي, مصر, قال, الذي, هذه, هذا, اليوم, رئيس -->
<feat name="NumForm" value="Digit" upos="NUM">5521</feat><!-- 15, 3, 6, 2, 8, 7, 4, 11, 10, 12 -->
<feat name="NumForm" value="Word" upos="NUM">2237</feat><!-- مليون, مليار, ألف, ثلاثة, ملايين, المئة, بليون, الف, المائة, عشرة -->
<feat name="NumValue" value="1" upos="NUM">32</feat><!-- واحد, واحدة, الواحد, واحداً, أحد, الواحدة, واحدا -->
<feat name="NumValue" value="2" upos="NUM">29</feat><!-- عشر, عشرة -->
<feat name="NumValue" value="3" upos="NUM">521</feat><!-- ثلاثة, خمسة, ثلاث, ستة, الثلاثة, اربعة, الثلاث, خمس, أربعة, سبعة -->
<feat name="Person" value="1" upos="AUX,DET,PRON,VERB">804</feat><!-- نا, ي, ني, نحن, أنا, نرى, كنت, نريد, نجد, أكون -->
<feat name="Person" value="2" upos="AUX,PRON,VERB">299</feat><!-- ك, كم, تحب, أنت, تواجه, تتجنب, تتعرض, تجد, تحصل, تخليتم -->
<feat name="Person" value="3" upos="AUX,DET,PRON,VERB">31534</feat><!-- ه, ها, هم, قال, كان, هو, كانت, هي, أضاف, تم -->
<feat name="Polarity" value="Neg" upos="ADJ,NOUN,NUM">25</feat><!-- بد, أفريقي, أمل, أوسطي, افريقي, اهمية, ايادي, بديل, تعازى, جدوى -->
<feat name="PronType" value="Dem" upos="DET">2125</feat><!-- هذه, هذا, ذلك, ذٰلك, هٰذا, تلك, هٰذه, هؤلاء, هذين, كلا -->
<feat name="PronType" value="Prs" upos="PRON">10877</feat><!-- ه, ها, هم, هو, نا, هي, هما, ك, ي, ني -->
<feat name="PronType" value="Rel" upos="DET">2537</feat><!-- التي, الذي, الذين, التى, الذى, اللذين, اللتين, اللواتي, ما, اللتان -->
<feat name="VerbForm" value="Fin" upos="AUX,VERB">10278</feat><!-- يتم, يمكن, يكون, تكون, تصل, يجب, يصل, يقول, يذكر, تقوم -->
<feat name="Voice" value="Act" upos="AUX,VERB">20523</feat><!-- قال, كان, كانت, أضاف, تم, أكد, يتم, يمكن, يكون, أشار -->
<feat name="Voice" value="Pass" upos="VERB">1224</feat><!-- يذكر, يوجد, قتل, يتوقع, تعد, تعتبر, يعد, أصيب, توجد, يعتبر -->
</feats>
<!-- Statistics of universal dependency relations. -->
<deps unique="36">
<dep name="acl">3134</dep>
<dep name="acl:relcl">2203</dep>
<dep name="advcl">1695</dep>
<dep name="advmod">2179</dep>
<dep name="advmod:emph">1037</dep>
<dep name="amod">24421</dep>
<dep name="appos">822</dep>
<dep name="aux">1584</dep>
<dep name="aux:pass">110</dep>
<dep name="case">40339</dep>
<dep name="cc">14442</dep>
<dep name="ccomp">3212</dep>
<dep name="conj">13166</dep>
<dep name="cop">460</dep>
<dep name="csubj">534</dep>
<dep name="csubj:pass">1</dep>
<dep name="dep">1566</dep>
<dep name="det">2150</dep>
<dep name="discourse">1</dep>
<dep name="dislocated">203</dep>
<dep name="fixed">2705</dep>
<dep name="flat:foreign">745</dep>
<dep name="iobj">107</dep>
<dep name="mark">7642</dep>
<dep name="nmod">63067</dep>
<dep name="nsubj">17833</dep>
<dep name="nsubj:pass">775</dep>
<dep name="nummod">3743</dep>
<dep name="obj">8471</dep>
<dep name="obl">15894</dep>
<dep name="obl:arg">10461</dep>
<dep name="orphan">196</dep>
<dep name="parataxis">5452</dep>
<dep name="punct">22440</dep>
<dep name="root">7664</dep>
<dep name="xcomp">1930</dep>
</deps>
</treebank>