-
Notifications
You must be signed in to change notification settings - Fork 1
/
NEWS
248 lines (187 loc) · 10 KB
/
NEWS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
# 0.13.1 (2019-02-19)
* uporządkowanie pakietu - usunięcie przestarzałych funkcji, poprawki w
dokumentacji, przepisanie przygotuj_utrata_pracy() na Spark-a
# 0.12.0 (2018-06-21)
* rozszerzenie funkcji agreguj_do_miesiecy() oraz agreguj_do_okresu()
o możliwość dowolnego zdefiniowania zmiennych grupujących (w praktyce
wykorzystywane przy liczeniu zbiorów w podziale na PKD)
* dodanie funkcji przygotuj_pkd() zwracającej wykorzystywane klasyfikacje PKD
* usunięcie dołączania klasyfikacji PKD z funkcji przygotuj_zus(),
dodatkowe klasyfikacje powinny być dodawane przy sklejaniu danych
w ostateczny zbiór, a nie na samym początku przygotowania danych
* rozszerzenie funkcji przygotuj_kierunki() i przygotuj_jednostki()
o możliwość zdefiniowania nazwy zmiennej identyfikującej rok rekordu
(ułatwia złączanie zwracanych danych ze zbiorami o różnych konwencjach
nazewnictwa)
* przepisanie kodu winietki Generowanie_danych.R we fragmentach dotyczących
zbioru kwartalnego i PKD, tak by korzystał z tych samych funkcji, co przy
generacji "standardowych" zbiorów (z kwartałami obliczanymi jako 12 okresów
3-miesięcznych plus okres "miesiąc uzyskania dyplomu")
* usunięcie funkcji agreguj_pkd() - patrz poprzedni punkt
# 0.11.4 (2018-06-05)
* korekta poważnego błędu w generowaniu zmiennej VJPD dla odbiorców - kierunków
w funkcji generuj_odbiorcow()
* korekta uwzględniania "zmiennych id" w funkcji pokaz_roznice()
# 0.11.3 (2018-06-04)
* usuwanie " z nazw kierunków/jednostek/uczelni (były interpretowane jako znaki
specjalne w LaTeXu)
* zmiana sposobu przypisywania kierunkom obszaru/dziedziny/dyscypliny w funkcji
przygotuj_kierunki() na taki, by do minimum ograniczyć liczbę braków danych
# 0.11.2 (2018-05-25)
* przygotuj_zus() przepisane na Spark-a
UWAGA - generowane dane mogą różnić się co do pna niektórych osób w związku
z niestabilną metodą przypisywania pna do okresów w wypadku istnienia wielu
rekordów adresowych obejmujących dany okres stosowaną w starym rozwiązaniu
* drobne poprawki w porownaj_zbiory() i pokaz_roznice() ułatwiające prace
ze zbiorami zus
# 0.11.1 (2018-05-24)
* Wersja, za pomocą której wygenerowano raporty '2017.
* Korekty w funkcji przygotowującej kierunki i odbiorców.
* Drobne usprawnienia w funkcjach służących do porównywania zbiorów.
# 0.11.0 (2018-05-10)
* Przepisanie zdecydowanej większości funkcji na sparka.
Uwaga! Spark (czy szerzej żaden SQL-owy backend dplyr-a) nie jest w pełni
kompatybilny z wersją natywnie R-ową. Szczególnej uwagi wymagają braki danych
i to, jak traktowane są przez niektóre funkcje (np. n_distinct()), pewnym
utrudnieniem jest też brak implementacji niektórych funkcji R (np. all() czy
any()), co wymaga stosowania idiomów.
* Przepisanie funkcji wczytujących uczelnie/instytucje/kierunki na uporządkowany
format danych wejściowych
* Korekta sposobu liczenia zmiennych np_e i np_n
* Dodanie nowych zmiennych kont_*
* Zmiana sposobu działania funkcji nazwa_pliku(), tak by wygodniej używało się
jej z csv-kami dla sparka
# 0.10.0 (2017-06-13)
* korekta wielkiej literówki w 0.9.3, gdzie zmienne PM_coś_S/PM_coś_N miały
w mianowniku NM_S/NM_N zamiast NM_X_S/NM_X_N
* korekta wyliczania zmiennych PM_X_S i PM_X_N (te dwie wyjątkowo powinny mieć
w mianowniku LEN zamiast NM_X_S i NM_X_N)
* dodanie funkcji oblicz_pkd() wyliczającej zmienne opisujące PKD
* pozostawienie zmiennej "pkd" w przygotuj_zus_zdau()
* dodanie dołączania zbioru pkd do danych miesięcznych i kwartalnych
w winietce generowania danych
* wydzielenie funkcji przygotuj_zdu1() z przygotuj_zus(), aby można było łatwo
dołączyć informację o płci oraz roku urodzenia
* dodanie funkcji generuj_wartosci() używanej przy generowaniu raportów
oraz wykorzystującej je winietki
# 0.9.3 (2017-05-17)
* zmiana definicji zmiennych {coś}_{coś}_n oraz {coś}_{coś}_s
* używana wewnętrznie funkcja nazwa_pliku() przyjmuje teraz dodatkowy
parametr "rozszerzenie"
# 0.9.2 (2017-04-27)
* zaktualizowane dane GUS
* dodane zmienne DATA_OD_E i DATA_OD_ES
* zmodyfikowany sposób przygotowywania słownika kierunków
(stary słownik mapowania kierunków na obszary/dziedziny/dyscypliny
został usunięty jako nieaktualny i zawierający błędy)
# 0.9.1 (2017-04-13)
* zmiany w sposobie przygotowania danych o kierunkach
(specyficzne dla zrzutu danych z 2017 roku)
# 0.9.0 (2017-04-01)
* wprowadzenie liniowej interpolacji danych o zarobkach z poziomu roku do
poziomu miesięcy (funkcje przygotuj_pna_powiaty_mb() oraz
przygotuj_powiaty())
# 0.8.1 (2017-03-10)
* korekta literówek data_od~data_do
# 0.8.0 (2017-01-30)
* wprowadzenie ugólnionej koncepcji okienka czasu definiowanego za pomocą
funkcji okienko(); wymuszona tym faktem zmiana parametrów funkcji
oblicz_okienko()
* wprowadzenie możliwości obliczania okresów krokami (w celu zmniejszenia
zużycia pamięci) - funkcja krok_zdau()
* zmiana nazw zmiennych określających początek i koniec sudiowania na
"data_od" i "data_do" (konwencji przyjętej w MLD)
* zaktualizowana baza kodów pocztowych, ich mapowania na powiaty oraz danych
GUS o powiatach
* dodanie weryfikacji kodów pocztowych w funkcji polacz_zus()
* wprowadzenie lepszego wspomagania dla cache-owania wyników pośrednich
- funkcja nazwa_pliku() i przepisana winietka Generowanie_danych.R
# 0.7.2 (2016-11-14)
* wyznaczając zmienną if_x_s bierzemy pod uwagę składkę za bycie bezrobotnym
(jeśli jest bezrobotny, to nie może być w danym okresie studentem)
# 0.7.1 (2016-11-11)
* dodane nowe zmienne
* ujednolicenie nazw zmiennych opisujących studiowanie (sufiks "_st" implikuje
bycie stała, dla zmiennych okienkowych przy dowolnej kategorii zatrudnienia
sufiks "_x_s")
* korekta wyliczania zmiennych "if_x_s" oraz "if_x_strprg" (dawniej "if_st" i
"if_stprg"), które muszą być wyliczane na poziomie {id, okres}, a nie, jak do
tej pory {id, okres, pracodawca, tytuł ubezpieczenia}
* zmiana rodzaju dużej ilości zmiennych z numeric na integer (co powinno dać
kilka procent szybsze obliczenia)
# 0.7.0 (2016-10-28)
* wyliczanie zmiennych przepisane tak, aby większość zmiennych przeliczana była
najpierw dla miesięcy, a następnie dla okienka czasu
* dodanie nowych zmiennych
# 0.6.0 (2016-09-16)
* dodane wyliczanie zmiennych miesięcznych
(funkcja oblicz_zmienne_miesieczne())
* dodane wyliczanie zmiennych na poziomie osoby (funkcja oblicz_osoba())
# 0.5.1 (2016-06-22)
* poprawiony wstydliwy błąd w wyliczaniu zmiennej student2 (bycie studentem
wg danych ze zbioru ZDAU), gdzie nie dość, że pomyliłem operatory, to
także ich priorytet
# 0.5.0 (2016-06-16)
* dodane nowe zmienne opisujące sytuację absolwenta na rynku pracy
w połączeniu z (nie)byciem studentem
# 0.4.4 (2016-05-17)
* korekta wyliczania zmiennej EZARD (w mianowniku powinno być NMZ)
# 0.4.3 (2016-05-06)
* korekty w sposobie wyliczania zmiennych dla specjalnych przypadków
(np. len równe 0, itp.)
# 0.4.2 (2016-05-04)
* zmienna ifzus okazała się nie być zmienną okienka czasu - wyliczanie
przeniesione do nowoutworzonej funkcji oblicz_stale()
* korekty w funkcji oblicz_zamieszkanie():
* korekta błędnego użycia ifelse(wMomDyplomu), które powodowało
niepoprawne dopasowywanie danych dla niemal wszystkich obserwacji, gdy
parametr wMomDyplomu był równy TRUE
* korekta wyliczania powiatu i województwa - na wcześniejszym etapie
teryt jest standaryzowany do postaci 6-cyfrowej i trzeba to uwzględnić
* oblicz_okienko() w wypadku śmierci badanego ogranicza okienko do miesiąca
poprzedzającego śmierć (dotychczas wliczała też miesiąc zgonu)
* przygotuj_kierunki() usuwa duplikaty ze zbioru mapowań kierunków na
obszary, dziedziny i dyscypliny, zanim zacznie go dalej przetwarzać
* szablon generowania danych Generowanie_danych.R dba teraz o zachowanie
w okienku czasowym wszystkich absolwentów (także tych, którzy nie mają
w okienku żadnych danych, bo np. zmarli)
* oblicz_zmienne_pochodne() ustawia teraz właściwe wartości domyślne braków
danych (generalnie 0 lub NA w zależności od zmiennej) dla wszystkich
zmiennych generowanych w okienku czasowym
* okres liczenia zmiennej STUDYP obejmuje teraz również miesiąc uzyskania
dyplomu
* przygotuj_kierunki() dostosowane do zmian nazw zmiennych w zbiorze źródłowym
* zmienne EMLE, EMLEP, EMLENP, ENDN i ENNN wyliczane są teraz w stosunku
rocznym (mają wartości 12-krotnie większe niż poprzednio)
# 0.4.1 (2016-05-03)
* korekta w funkcji przygotuj_okienko() pozostawiająca w okienku osoby,
dla których data końca obserwacji była brakiem danych (najczęściej osoby,
które w ogóle nie zostały odnotowane w danych ZUS)
# 0.4.0 (2016-04-30)
* zmiany w nazwach zmiennych ujednolicajace ze zbiorem MS
* zmienne opisujace zamieszkanie wyliczane sa obecnie tylko dla momentu
uzyskania dyplomu i konca obserwacji (znow kompatybilnosc z MS)
* pare drobnych korekt w sposobie wyliczania zmiennych (np. domyslne NA/0)
# 0.3.4 (2016-04-05)
* dodanie zbioru danych opisującego obszary, dziedziny i dyscypliny studiów
# 0.3.3 (2016-03-30)
* dodanie funkcji okres2miesiac()
* dodanie funkcji oblicz_stale_czasowe()
# 0.3.2 (2016-03-15)
* korekty błędów w funkcjach przeliczających daty data2okres(), okres2data(),
dodanie funkcji okres2rok()
* dodanie funkcji przygotuj_pna_powiaty_mb() dla danych od Marka Bożykowskiego
# 0.3.1 (2016-02-03)
* korekty wyliczania zmiennej pomocniczej "len" (uwzględnianie informacji o
zgodnie ze zbioru ZDU1)
* poprawiony sposób dołączania zmiennej "len" do pozostałych zbiorów
tymczasowych wyliczanych dla okienka czasu
* winietka zawierająca pełny kod wyliczający zbiór wynikowy skonwertowana na
zwykły skrypt R z komentarzami (co ułatwia jej wykonanie)
# 0.3.0 (2016-01-27)
* większość zmiennych sprawdzona ze zbiorem Marka Stycznia
* korekty w sposobie wyliczania wielu zmiennych
* przygotowana winietka w markdown wykonująca porównanie
# 0.2.0 (2016-01-12)
* obliczenia równoległe z wykorzystaniem pakietu multidplyr
* korekty definicji kilku zmiennych