forked from Dehamo/Text-mining
-
Notifications
You must be signed in to change notification settings - Fork 0
/
sem.xhtml
128 lines (117 loc) · 6.8 KB
/
sem.xhtml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//FR" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta name="description" content="Projet pour le cours Projet encadré 2 - Boîte à Outils" />
<meta name="author" content="Sotiria BAMPATZANI & Morgane DEHARENG" />
<title>BaO | Projet</title>
<link rel="icon" type="image/png" href="./images/ico/favicon.png" sizes="16x16" />
<link href="css/bootstrap.min.css" rel="stylesheet" />
<link href="css/animate.min.css" rel="stylesheet" />
<link href="css/main.css" rel="stylesheet" />
<link href="css/responsive.css" rel="stylesheet" />
</head>
<body>
<header id="header">
<div class="navbar navbar-inverse" role="banner">
<div class="container">
<div class="navbar-header">
<a class="navbar-brand" href="index.xhtml">
<h1><img src="images/logo.png" alt="logo" /></h1>
</a>
</div>
<div class="collapse navbar-collapse">
<ul class="nav navbar-nav navbar-right">
<li class="dropdown"><a href="index.xhtml">Home</a></li>
<li class="dropdown"><a href="presentation.xhtml">Présentation</a></li>
<li class="dropdown"><a href="#">Boîtes à Outils<i class="fa fa-angle-down"></i></a>
<ul role="menu" class="sub-menu">
<li class="dropdown"><a href="bao1.xhtml">BaO 1<i class="fa fa-angle-down"></i></a></li>
<li class="dropdown"><a href="bao2.xhtml">BaO 2<i class="fa fa-angle-down"></i></a></li>
<li class="dropdown"><a href="bao3.xhtml">BaO 3<i class="fa fa-angle-down"></i></a></li>
<li class="dropdown"><a href="bao4.xhtml">BaO 4<i class="fa fa-angle-down"></i></a></li>
</ul>
</li>
<li class="active"><a href="#">Entités Nommées<i class="fa fa-angle-down"></i></a>
<ul role="menu" class="sub-menu">
<li class="dropdown"><a href="entites-nommees.xhtml">Présentation<i class="fa fa-angle-down"></i></a></li>
<li class="active"><a href="sem.xhtml">SEM<i class="fa fa-angle-down"></i></a></li>
<li class="dropdown"><a href="trameur.xhtml">Le Trameur<i class="fa fa-angle-down"></i></a></li>
</ul>
</li>
<li class="dropdown"><a href="http://baoprojet.wordpress.com" target="_blank">Blog<i class="fa fa-angle-down"></i></a></li>
</ul>
</div>
</div>
</div>
</header>
<!--/#header-->
<section id="page-breadcrumb">
<div class="vertical-center sun">
<div class="container">
<div class="row">
<div class="action">
<div class="col-sm-12">
<h1 class="title">SEM</h1>
<p>Segmenteur-Etiqueteur Morphosyntaxique</p>
</div>
</div>
</div>
</div>
</div>
</section>
<!--/#page-breadcrumb-->
<section id="company-information">
<div class="container">
<div class="row">
<br/>
<p>Outre Le Trameur, une autre manière de procéder est d'utiliser le logiciel SEM, un segmenteur-étiqueteur du français développé par le laboratoire LaTTiCe. Ce logiciel intègre la reconnaissance des entités nommmées lors de l'étiquetage. Il dispose de deux versions : une version en ligne et une version en console. Cette dernière, optimisée pour un environnement Unix, est assez complexe à prendre en main, raison pour laquelle nous avons préféré la version <a href="http://apps.lattice.cnrs.fr/sem/" target="_blank">en ligne</a>.</p>
<br/><br/>
<p class="text-justify wow fadeInDown" data-wow-duration="400ms" data-wow-delay="400ms">
<div class="cen">
<img src="./images/site/SEM.PNG" alt="L'interface graphique de l'étiqueteur SEM" style="width: 750px; height: 350px;"/>
</div>
</p>
<br/><br/>
<p>Au vu de la quantité importante de nos données, nous ne pouvions évidemment pas étiqueter l’entièreté du corpus d’un coup. Nous avons donc automatiquement morcelé le corpus à l'aide de la commande <i>split -l 500 3210.txt</i>, comme montré ci-dessous :</p>
<br/>
<p class="text-justify wow fadeInDown" data-wow-duration="400ms" data-wow-delay="400ms">La commande:
<div class="cen">
<img src="./images/site/commande.png" alt="Commande" style="width:650px; height:100px;"/>
</div>
</p>
<br/><br/>
<p class="text-justify wow fadeInDown" data-wow-duration="400ms" data-wow-delay="400ms">Les fichiers obtenus:
<div class="cen">
<img src="./images/site/souscorpus.png" alt="Sous-corpus" style="width:400px; height:200px;"/>
</div>
</p>
<br/><br/>
<p>Après avoir étiqueté ces fichiers TXT, nous les avons concaténés pour recréer le corpus complet. Le résultat de l’étiquetage avec SEM en ligne peut générer des fichiers HTML, JSON, CoNLL et TXT. Le <a href="./resultats/sem/sem.conll" target="_blank">fichier CoNLL</a> est le plus lisible, mais nous nous sommes basées sur le <a href="./resultats/sem/sem.txt" target="_blank">fichier TXT</a> qui est moins lisible mais plus facile à traiter.</p>
<p>Pour la recherche des entités nommées, nous avons écrit un <a href="./codes/sem.txt" target="_blank">script Perl</a> qui extrait ces entités sur base d’<a href="./resultats/bao1/3210.txt" target="_blank">un fichier TXT</a>. Nous nous sommes pour cela servies des expressions régulières pour reconnaitre les catégories d’entités nommées qui nous intéressent (personnes et lieux) et pour réaliser des traitements sur les données propres à chaque catégorie. Le résultat de cette extraction est un <a href="./resultats/sem/listeEN.txt" target="_blank">fichier au format TXT</a> contenant la liste des entités extraites.</p>
</div>
</div>
</section>
<div class="left">
<a href="./sem.xhtml" class="btn btn-common">Haut de page</a>
</div>
<footer id="footer">
<div class="container">
<div class="row">
<div class="col-sm-12">
<div class="copyright-text text-center">
<p>© M1 TAL 2016/2017. Sotiria BAMPATZANI & Morgane DEHARENG</p>
</div>
</div>
</div>
</div>
</footer>
<!--/#footer-->
<script type="text/javascript" src="js/jquery.js"></script>
<script type="text/javascript" src="js/bootstrap.min.js"></script>
<script type="text/javascript" src="js/wow.min.js"></script>
<script type="text/javascript" src="js/main.js"></script>
</body>
</html>