Skip to content

This repository is used for subject Systems for data exploring and analysis.

Notifications You must be signed in to change notification settings

svetozarstojkovic/road-accidents-incidence

Repository files navigation

road-accidents-incidence

Овај документ садржи кратак опис онога што је тема пројекта и дефиниција, мотивација за одабрану тему. Након мотивације следи преглед владајућих ставова и схватања у литератури, затим скуп података који је укратко описан. Такође је наведен и софтвер који ће бити коришћен, као и метод евалуације. На самом крају документа налази се план рада на пројекту. Тема пројекта је систем за анализу саобраћајних несрећа у Великој Британији. Датасет садржи податке од 1979. до 2015. године. За сваку саобраћајну несрећу постоји 70 параметара који описују тај догађај. У атрибутима се такође налазе подаци о локацији судара у облику географских координата.

Дефиниција пројекта

Пре почетка било каквог рада над подацима, подаци се морају ”средити”. Многи параметри немају све врсте попуњене, недостају им разне вредности. Неки параметри ће се употпуности избацити док ће се негде где фали мали број вредности у колони вршити апроксимација на основу постојећих. На основу података вршиће се експлоративна анализа и показати трендови који ће указати на узроке удеса, или групе под већим ризиком од њих. Такође, систем ће вршити предвиђање исхода судара анализом датих параметара.

Исход судара може бити једна од три вредности

  • Блаже телесне повреде
  • Озбиљне телесне повреде
  • Смртни исход

Мотивација

Опште је познато да је аутомобилски саобраћај најопаснији начин транспортације, овај систем би открио разне трендове код саобраћајних несрећа што може да помогне законодавној власти при доношењу закона на шта би требали да обрате пажњу више или мање. Преглед владајућих ставова и схватања у литератури

  1. S.Shanthi, Dr.R.Geetha Ramani (2011) Classification of Vehicle Collision Patterns in Road Accidents using Data Mining Algorithms Тема рада: Овај рад тежи формирању класификационих правила за предвиђање врсте судара. Подаци: Fatality Analysis Reporting System (FARS) доступан преко Critical Analysis Reporting Environment (CARE) система Универзитета Алабаме. Коришћени алгоритми: Класификациони алгоритми:C4.5, C-RT, CS-MC4, Decision List, ID3, Naïve Bayes and RndTree. CFS, FCBF, Feature Ranking, MIFS and MODTree су кориштени у покушају да повећају тачност класификатора. Остварени резултати: Класификациони алгоритми су кориштени на 37248 узорака. RndTree се показао као најбољи класификатор, са тим да се при употреби Feature Ranking алгоритма повећава тачност класификатора.
  2. Tibebe Beshah , Shawndra Hill, Mining Road Traffic Accident Data to Improve Safety: Role of Road- related Factors on Accident Severity in Ethiopia Тема рада: Повезивање карактеристика пута са подацима о степену тежине саобраћајне несреће. Подаци: RTA dataset of the Addis Ababa Traffic Control and Investigation Department Коришћени алгоритми: Decision tree, naive Bayes, and K-nearest neighbor класификатори. Остварени резултати: Анализа постојеће литературе показује мањак студија које налазе везу између карактеристика пута и степена несрећа. У овом раду је извршено скупљање и чишћење података о несрећама, и тестирано је неколико предиктивних модела. На крају знање је приказано као правила PART алгоритма WEKA-е.

Скуп података

За израду овог пројекта биће кориштен скуп података који је преузет са Kaggle сајта (https://www.kaggle.com/akshay4/road-accidents-incidence). Скуп података се налази у .csv фајлу и садржи податке о 285000 саобраћајних несрећа представљених кроз 70 атрибута. Подаци су сакупљени у периоду од 1979 до 2015, тако да постоји велики број вредности које недостају или није уношен у одређеним периодима. Циљни атрибут је исход судара, на основу кога ћемо вршити класификацију на 3 класе тежине претрпљених телесних повреда.

Методологија

Након тога креираћемо два модела редукцијом димензионалности скупа података:

  • Скуп атрибута добијен селекцијом уназад
  • Скуп атрибута добијен помоћу PCA
  • Редови који имају null вредности на више од 50% колона ће бити елиминисани.

Редовима, преосталим након ове обраде, којима будe недостајао мали број вредности атрибута, ће те вредности бити испуњене median вредношћу за дати атрибут.

Софтвер

За израду пројекта биће кориштен Python 2.7 и развојно окружење PyCharm. У плану је да се направи веб апликација у којој ће се на основу улазних параметара о вожњи одредити исход потенцијалног судара. За обраду и анализу датасета биће коришћен RapidMiner.

Метод евалуације

Као метод евалуације датасет ће бити подељен у скуп за тренинг и скуп за тестирање. На 80% података ће се систем обучавати, 10% ће бити одвојено за валидацију док ће на преосталих 10% да се тестира. Тачност класификационих модела ће се тестирати коришћењем f-measure методе.

Експлоративна анализа података

Експлоративном анализом података ћемо покушати да утврдимо корелације између исхода судара и других атрибута, као што су старост возача, возила, место удеса, или временски услови. Хистограмима ћемо генерално уочити основне поделе и генералну дистрибуцију података, а потом израчунавањем коваријансе уочити колико вредности атрибута варирају са вредношћу исхода судара.

Предикција

Класификациони модели ће бити обучени да на основу улазних података одреде исход саобраћајне несреће. Предикцијa ће бити вршена следећим класификационим моделима:

  • Naive Bayes
  • KNN (К nearest neighbor)
  • Decision tree - C4.5
  • Неуронска мрежа - scaled conjugate gradient backpropagation

Кластеровање

Користићемо K++ means да извршимо кластеровање података. Број кластера ће зависити од броја могућих вредности атрибута на основу ког се врши кластеровање. Атрибути на основу којих ће се вршити кластеровање су године, пол возача, старост возила… Евалуација кластеровања ће бити извршена избацивањем циљног атрибута током кластеровања и посматрањем поклапања резултата са циљним атрибутом.

План

План рада на овом пројекту обухвата следеће битне тачке:

  1. Трансформација података (2)
  2. Експлоративна анализа података (3)
  3. Креирање модела за предикцију (1,2,3)
  4. Тестирање модела за предикцију (1)
  5. Kластеровање (2,3)
  6. Евалуација кластеровања(1)

Тим

  1. Стефан Бошковић (Е2-76/2017)
  2. Светозар Стојковић (Е2-93/2017)
  3. Саша Лалић (Е2-102/2017)

About

This repository is used for subject Systems for data exploring and analysis.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages