Репозитарий команды Финэка МГИМО для участия в AIS Big Data Hackathon
AIS ведет треккинг крупных морских судов в реальном времени. Мы получим выборку данных, содержащую позиции (широта, долгота, метка времени) судов.
Структура данных в исходной базе описыватся здесь (1) и здесь (2). Пока не ясно какие все ли поля нам предоставят (например, будут ли указаны типы судов).
Исходные данные - высокочастотные (каждые 2-3 секунды во время движения), надеюсь они выгрузят какие-то предобработанные данные, а не сырые и битые радиосообщения AIS. Если мы не хотим смотреть на маневрирование/сближение судов, то данные надо будет агрегировать, по часам/суткам или по сегментам (векторам) пути.
Также не ясно дадут ли нам доступ к географическому сегменту данных или всему земному шару (было бы здорово, но это большой массив данных). Сегмент по времени обещают до и после коронавируса, но почему-то говорят о 2019 годе, видимо, ошибка в анонсе. (3)
Сами данные будут в некой UN Global Platform, но что это по сути (источник данных или система для проведения расчетов) - не очень понятно. Датское статистическое агентство раскрывает исторические данные AIS по своей акватории, но я их еще не загружал, дачный интернет такое на выдержит (4)
Организаторы хакатона оставляют за участниками сформулировать исследовательские вопросы, их основные задачи - популяризация работы с большими данными в сфере статистики, и расширение коллабораций между исследователями. Это не соревнование на точность прогнозирования и не заказ на разработку какого-то конкретного приложения.
- До 2 августа требуется изложить свои исследовательские вопросы
- 14 августа организаторы отбирают команды и дают доступ к структуре данных, и поработать с самим данными
- Сам хакатаон с реальными данными в первых числах сентября
Approximately fifteen 2-5 person teams from various backgrounds will be chosen,and an ideal grouping of teams would include data scientists, statisticians, economists and social scientists.
Пока в команде 1 участник - Погребняк Евгений, пишите мне, если у вас есть время, навыки и/или инетрес присоединиться. Вы можете стать участником команды, можете наблюдать за работой в режиме слушателя, чтобы чему-то научиться, а можете создать свою, например, полностью студенческую команду.
ООН призов для участников этих соревнований не предоставляет - все отобранные команды получат сертификат участия, в них также будут отмечены топ-3 команды.
Престижно, если твою работу оценят, но в данном случае это происходит без денежных призов, свойственных дата-соревнованиям.
Хорошие вопросы и хитрый (элегантаный) путь для их решения.
Можно засесть за что-то фундаметальное (перекладывание траекторий движения судов в граф между портам или разворотами, анализ этого графа, и т.д.), но это долго и не для хакатона. Скорее всего, жюри захочет каких-то простых идей и визуально интересного оформления.
У меня есть пару идей на этот счет, но обсуждать хотел бы уже с конкретными участниками команды, которая еще в процессе формирования. Мне кажется, будет хорошо смотреться воспроисводимое (reproducible) решение, типа open source библиотечки для работы с данными AIS, на базе которой можно реализовать дальнейшие конкретные решения.
Нам предстоит сделать как минимум следующие шаги (возможно нелинейно):
- получить доступ к данным, упростить/агрегировать их (подготвока данных)
- выдвинуть гипотезы и исследовательские идеи, для чего эти данные полезны (гипотезы)
- дать простые / экономичные расчеты (модели)
- как нарисовать что-то красивое, понятное и полезное (визуализация)
- как объяснить результаты, дальше их использовать (коммуникации)
Часто на шаге 2 нет прорывных идей или шагов, но они появляются, если поработать на других направлениях (повертеть данные и обсудить их с заинтересованными коллегами).
python, pandas/vaex, если датасет очень большой - spark. Принимаются предложения, что бы еще испольозовать. Глубинного обучения пока не планируется, но если кто-то готов что-то предложить
Список гипотез и применений данных в посветке ООН (на английском, для заявки).