-
Notifications
You must be signed in to change notification settings - Fork 0
/
todo.txt
110 lines (85 loc) · 5.85 KB
/
todo.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
- при отсутствии валидации брать неинтегрированную модель Selex-R когда Selex-I модели нет
- не брать валидированные ди-модели, если они хуже моно-моделей
- выкинуть модели с AUC < 0.65
- перевернуть лого на нужную нить
- вингендеровские семейства
- meth/singlebox(вернее secondary)
- склеить модели, когда несколько одинаковых моделей имеют разные юнипроты
- селекс лучше чем HOCOMOCO-D
# ! склеить модели, когда несколько одинаковых моделей имеют разные юнипроты
сейчас посмотрю сколько уникальных юнипроотов у тайпале
а их 405
где же я накосячил
пауза на 10 минут
bingo!!!
я не накосячил
tfs = tfs.select { |tf| inputs_all.select { |inp| File.basename(inp).split("_")[0] == tf }.size >= 2 }
т.е. просто это только те ТФ, для которых было более 1 датасета
а для прочих можно брать неинтегрированную модель
Добавить median AUC в плюс к best AUC
Не забыть поправить check_results и досчитать
Модели с качеством < 0.65 выкинуть вообще
после чистки датасетов плохих выкинем еще плохие модели
сразу нафиг
у которых ни на одном из оставшихся датасетов AUC не проходит минимальный порог
но только чипсиковые
Выбрать порог на AUC по графику
FPR - оцениваем вероятность случайного сиквенса (который почти наверное negative в смысле не биологический сайт) иметь сайт (математически)
# best models: {"CM"=>143, "CD"=>301, "HL"=>10, "HO"=>4, "SDF"=>4, "SE"=>2, "SR"=>2}
сайт для мотивов (моно-ди) похожий на эпигены
желательно сделать в браузере сканилку коротких сиквенсов на поиск мотива
ATF2 / ATF4 --> ATF2+ATF4 (такого не хочется, но может и не получится уйти)
WTF:
ALX1_HUMAN_DBD_2 имеет внутри имя CART1^470
нужен ли нам UNIPROBE (который PPM-ки дает?)
Что готово (в порядке вызовов):
- unpack: распаковывает архивы
- collect_and_normalize_data:
- collect_pcm: собирает pcm-ки по разным папкам в одну большую
- rename_motifs: преобразует имена мотивов в ассоцированные с юнипротом
- convert_pcm_to_pwm: делает из pcm-ок pwm-ки с однородным фоном
- calculate_local_backgrounds: считает фоновые распределения по наборам слов
- precalculate_thresholds: считает пороги для каждой модели на локальном фоне
- calculate_occurence_scores: считает скоры для каждой модели на каждом контроле
- scores_to_pvalues: переводит скоры в пвальюсы (для каждой модели на каждом контроле)
- correct_pvalues: переводит пвальюсы сайтов в пвальюсы сиквенсов (вероятность вытащить случайный сиквенс, такой что в нем будет хоть один сайт)
- calculate_auc: по пвальюсам сиквенсов считает площадь под ROC-кривой
исходные данные:
check_result.tsv
chipseq_models.zip
control.zip
FANTOM5_phase2_KNOWN_motifs_IDmapping.txt
htselex_mono_di.zip
htselex.zip
standard_motif_collections.tar.gz
standard_motif_collections_update.tar.gz
uniprot_HomoSapiens_and_MusMusculus.txt
HOCOMOCOv9_motifs2uniprot.txt
hocomoco_qualities.tsv
selex_integrated.zip
pluripotency_factors.zip
secondary_models.txt
banned_models.txt
revcomp_models.txt
TFOntologies/TFClass_human.obo
TFOntologies/TFClass_mouse.obo
HOCOMOCOv9_full_alignments_noTRANSFAC.zip
ape-2.0.1.jar
sarus.jar
Почему для некоторых мотивов нет контролей вообще?! AIRE как пример. В старой хокомоке был, в этой - нет. Так задумано?
Мотивы есть старые хокомочные, по чипсекам мотивов нет
а, ну тогда ой
мотивов нет = контролей нет
а потом мы будем брать мотивы из старой базы?
или считаем, что их нет
м?
вроде же в пайплайне прописано
что мы старую коллекцию оставляем, и из нее недостающие мотивы в новую подкачиваем непременно
а, ок. Я просто не читаю пайплайн сильно вперед, а этого момента уже не помню
а из других коллекций подкачиваем?
Сложное место HT-SELEX можно бы
там вроде были наши модели 1 на ТФ
но у них качество будет соответствующее
остальные кроме HTSELEX думаю нет
у свисрегулона очень расслабленные ассоциации с ТФ
а у остальных коллекций доп.мотивов полтора