Skip to content

Репозитарий команды Финэка для участия в AIS Big Data Hackathon

Notifications You must be signed in to change notification settings

finec-mgimo/un-ais-hackaton

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 

Repository files navigation

un-ais-hackaton

Репозитарий команды Финэка МГИМО для участия в AIS Big Data Hackathon

Информация от организаторов

Структура данных

AIS ведет треккинг крупных морских судов в реальном времени. Мы получим выборку данных, содержащую позиции (широта, долгота, метка времени) судов.

Структура данных в исходной базе описыватся здесь (1) и здесь (2). Пока не ясно какие все ли поля нам предоставят (например, будут ли указаны типы судов).

Исходные данные - высокочастотные (каждые 2-3 секунды во время движения), надеюсь они выгрузят какие-то предобработанные данные, а не сырые и битые радиосообщения AIS. Если мы не хотим смотреть на маневрирование/сближение судов, то данные надо будет агрегировать, по часам/суткам или по сегментам (векторам) пути.

Также не ясно дадут ли нам доступ к географическому сегменту данных или всему земному шару (было бы здорово, но это большой массив данных). Сегмент по времени обещают до и после коронавируса, но почему-то говорят о 2019 годе, видимо, ошибка в анонсе. (3)

Сами данные будут в некой UN Global Platform, но что это по сути (источник данных или система для проведения расчетов) - не очень понятно. Датское статистическое агентство раскрывает исторические данные AIS по своей акватории, но я их еще не загружал, дачный интернет такое на выдержит (4)

Что вообще с этим надо сделать

Организаторы хакатона оставляют за участниками сформулировать исследовательские вопросы, их основные задачи - популяризация работы с большими данными в сфере статистики, и расширение коллабораций между исследователями. Это не соревнование на точность прогнозирования и не заказ на разработку какого-то конкретного приложения.

Таймлайн

  • До 2 августа требуется изложить свои исследовательские вопросы
  • 14 августа организаторы отбирают команды и дают доступ к структуре данных, и поработать с самим данными
  • Сам хакатаон с реальными данными в первых числах сентября

Кого выберут для участия

Approximately fifteen 2-5 person teams from various backgrounds will be chosen,and an ideal grouping of teams would include data scientists, statisticians, economists and social scientists.

Пока в команде 1 участник - Погребняк Евгений, пишите мне, если у вас есть время, навыки и/или инетрес присоединиться. Вы можете стать участником команды, можете наблюдать за работой в режиме слушателя, чтобы чему-то научиться, а можете создать свою, например, полностью студенческую команду.

Призы

ООН призов для участников этих соревнований не предоставляет - все отобранные команды получат сертификат участия, в них также будут отмечены топ-3 команды.

Престижно, если твою работу оценят, но в данном случае это происходит без денежных призов, свойственных дата-соревнованиям.

Что надо придумать

Хорошие вопросы и хитрый (элегантаный) путь для их решения.

Можно засесть за что-то фундаметальное (перекладывание траекторий движения судов в граф между портам или разворотами, анализ этого графа, и т.д.), но это долго и не для хакатона. Скорее всего, жюри захочет каких-то простых идей и визуально интересного оформления.

У меня есть пару идей на этот счет, но обсуждать хотел бы уже с конкретными участниками команды, которая еще в процессе формирования. Мне кажется, будет хорошо смотреться воспроисводимое (reproducible) решение, типа open source библиотечки для работы с данными AIS, на базе которой можно реализовать дальнейшие конкретные решения.

Как команда будет работать

Нам предстоит сделать как минимум следующие шаги (возможно нелинейно):

  1. получить доступ к данным, упростить/агрегировать их (подготвока данных)
  2. выдвинуть гипотезы и исследовательские идеи, для чего эти данные полезны (гипотезы)
  3. дать простые / экономичные расчеты (модели)
  4. как нарисовать что-то красивое, понятное и полезное (визуализация)
  5. как объяснить результаты, дальше их использовать (коммуникации)

Часто на шаге 2 нет прорывных идей или шагов, но они появляются, если поработать на других направлениях (повертеть данные и обсудить их с заинтересованными коллегами).

Технологический стек

python, pandas/vaex, если датасет очень большой - spark. Принимаются предложения, что бы еще испольозовать. Глубинного обучения пока не планируется, но если кто-то готов что-то предложить

To do next

Список гипотез и применений данных в посветке ООН (на английском, для заявки).

About

Репозитарий команды Финэка для участия в AIS Big Data Hackathon

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published