add_dataset_dataloader #1

AntonionyBul · 2024-11-22T05:50:57Z

No description provided.

kirilltobola · 2024-11-29T09:10:21Z

data_source/train/data_0.csv

Этот файл не нужно было в коммит добавлять)

kirilltobola · 2024-11-29T09:10:41Z

data_source/train/data_1.csv

Этот файл не нужно было в коммит добавлять)

kirilltobola

Исправь мелкие замечания
перепиши в dataset.py функцию _create_dataset. Нужна другая стратегия токенизации для столбцов.

kirilltobola · 2024-11-29T09:16:26Z

dataset/config.json

@@ -0,0 +1,29 @@
+{
+	"num_labels": 170,


Пока не нужен параметр

kirilltobola · 2024-11-29T09:16:52Z

dataset/config.json

+	"num_labels": 170,
+	"num_gpu": 4,
+	"save_period_in_epochs": 10,
+	"metrics": ["f1_micro", "f1_macro", "f1_weighted"],


Не нужен

kirilltobola · 2024-11-29T09:17:00Z

dataset/config.json

+	"save_period_in_epochs": 10,
+	"metrics": ["f1_micro", "f1_macro", "f1_weighted"],
+	"pretrained_model_name": "bert-base-multilingual-uncased",
+	"table_serialization_type": "column_wise",


Не нужен

kirilltobola · 2024-11-29T09:22:02Z

dataset/config.json

+	"start_from_checkpoint": false,
+	"checkpoint_dir": "checkpoints/",
+	"checkpoint_name": "model_best_f1_weighted.pt",
+	"inference_model_name": "model_table_wise.pt",


Не нужен

kirilltobola · 2024-11-29T09:22:08Z

dataset/config.json

+	"checkpoint_dir": "checkpoints/",
+	"checkpoint_name": "model_best_f1_weighted.pt",
+	"inference_model_name": "model_table_wise.pt",
+	"inference_dir": "data/inference/",


Не нужен

kirilltobola · 2024-11-29T09:30:32Z

dataset/dataloader.py

+        train_df = dataset[~dataset["table_id"].isin(valid_mask)]
+        train_ids = train_df.index.to_numpy()
+
+        # valid_ids = dataset_ids[0:len_valid]


Комменты можно удалить

kirilltobola · 2024-11-29T09:30:56Z

dataset/dataloader.py

+    pass
+
+
+    # from config import Config


Код для теста обертки лучше оставить в этом блоке (раскомментить)

kirilltobola · 2024-11-29T09:34:33Z

dataset/dataset.py

+    def __getitem__(self, idx):
+        return {
+            "data": self.df.iloc[idx]["data"],
+            "labels": self.df.iloc[idx]["labels"],


У нас вместо лейблов будут заголовки столбцов, поэтому тут заменить на headers

kirilltobola · 2024-11-29T09:39:40Z

dataset/dataset.py

+    def _create_dataset(self, df: pd.DataFrame, tokenizer: PreTrainedTokenizerBase) -> pd.DataFrame:
+        """Tokenize columns data.
+
+        Groups columns by table_id's and tokenizes columns data.
+
+        Tokenized columns are flatten into sequence, like so:
+
+        [CLS] token_11 token_12 ... [SEP] [CLS] token_21 ... [SEP]
+
+        Args:
+            df: Entire dataset as dataframe object.
+            tokenizer: Pretrained BERT tokenizer.
+
+        Returns:
+            pd.Dataframe: Dataset, grouped by tables and tokenized.
+        """
+
+        data_list = []
+        for table_id, table in tqdm(df.groupby("table_id")):
+            num_cols = len(table)
+
+            # Tokenize table columns.
+            tokenized_table_columns = table["column_data"].apply(
+                lambda x: tokenizer.encode(
+                    # max_length for SINGLE COLUMN. Not for table as sequence.
+                    # BERT maximum input length = 512. So, max_length = (512 // num_cols).
+                    x, add_special_tokens=True, max_length=(512 // num_cols), truncation=True
+                )
+            ).tolist()
+
+            # Concat table columns into one sequence.
+            concat_tok_table_columns = list(chain.from_iterable(tokenized_table_columns))
+            tokenized_columns_seq = torch.LongTensor(concat_tok_table_columns)
+
+            # Use Long, because CrossEntropyLoss works with Long tensors.
+            labels = torch.LongTensor(table["label_id"].values)
+
+            data_list.append(
+                [table_id, num_cols, tokenized_columns_seq, labels]
+            )
+
+        return pd.DataFrame(
+            data_list,
+            columns=["table_id", "n_cols", "data", "labels"]
+        )


В данном случае нужна другая стратегия токенизации, более простая.

В RuTaBERT мы токенизировали все столбцы таблицы в одну последовательность [CLS] token_11 token_12 ... [SEP] [CLS] token_21 ... [SEP].

Сейчас нам нужно просто каждый столбец таблицы токенизировать + вставить в начало столбца специальный токен [CLS] и [SEP] в конец столбца.

Вернуть в том же формате. Вместо столбца labels в результирующем датафреме у нас будет заголовок, поэтому замени его название на header.

@AntonionyBul
UPD: я тут подумал, нам вообще эта функция здесь не нужна. Токенизацию нужно будет делать после аугментаций. Создам сам функцию, которую повешаю потом на даталоадер.

kirilltobola · 2024-11-29T09:40:11Z

dataset/dataset.py

+
+
+if __name__ == "__main__":
+    pass


Добавить пример использования датасета, и ты забыл пустую строку добавить в конец файла.

add_dataset_dataloader

f3bc447

kirilltobola self-requested a review November 27, 2024 03:09

kirilltobola reviewed Nov 29, 2024

View reviewed changes

data_source/train/data_0.csv

Copy link

Member

kirilltobola Nov 29, 2024

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Этот файл не нужно было в коммит добавлять)

kirilltobola reviewed Nov 29, 2024

View reviewed changes

data_source/train/data_1.csv

Copy link

Member

kirilltobola Nov 29, 2024

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Этот файл не нужно было в коммит добавлять)

kirilltobola requested changes Nov 29, 2024

View reviewed changes

kirilltobola assigned AntonionyBul Nov 29, 2024

kirilltobola closed this Jan 5, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add_dataset_dataloader #1

add_dataset_dataloader #1

AntonionyBul commented Nov 22, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola left a comment

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Nov 29, 2024

kirilltobola Dec 13, 2024

kirilltobola Nov 29, 2024

add_dataset_dataloader #1

add_dataset_dataloader #1

Conversation

AntonionyBul commented Nov 22, 2024

Choose a reason for hiding this comment

Choose a reason for hiding this comment

kirilltobola left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment