Skip to content

Sette/fma_prep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Preparação de Dados - FMA Large Dataset

Este projeto tem como objetivo a preparação dos dados do dataset FMA Large para treinamento de uma rede neural de classificação hierárquica multilabel. O dataset FMA Large contém informações detalhadas sobre músicas, como características de áudio e metadados, que serão utilizados para treinar um modelo que pode lidar com a complexidade das tarefas de classificação hierárquica.

Índice

Visão Geral

O projeto foca na extração, transformação e organização dos dados contidos no FMA Large Dataset para que possam ser utilizados em um modelo de classificação hierárquica multilabel. A preparação dos dados inclui:

  • Carregamento e limpeza dos dados.
  • Transformação dos dados para o formato necessário para o modelo.
  • Criação de labels hierárquicas para treinamento.
  • Armazenamento dos dados preparados em um formato eficiente para uso durante o treinamento.

Estrutura do Projeto

├── fma_prep/
│   ├── raw/                 # Dados brutos do FMA Large Dataset
│   ├── processed/           # Dados processados e prontos para uso
│   └── labels/              # Labels hierárquicos gerados para cada faixa
├── notebooks/
│   ├── data_preparation.py  # Script principal para preparação dos dados
│   └── utils.py             # Funções auxiliares para transformação de dados
├── README.md                # Documentação do projeto
└── requirements.txt         # Dependências necessárias para o projeto

Requisitos

Antes de iniciar, certifique-se de que você tem as seguintes dependências instaladas:

  • Python 3.8+
  • Bibliotecas listadas em requirements.txt

Instale as dependências com:

pip install -r requirements.txt

Instruções de Uso

  1. Download do Dataset: Baixe o FMA Large Dataset no site oficial FMA Large Dataset e coloque os arquivos na pasta data/raw/.

  2. Preparação dos Dados: Execute o script data_preparation.py para preparar os dados:

    python src/data_preparation.py

    Isso irá gerar os dados processados na pasta data/processed/ e as labels na pasta data/labels/.

  3. Verificação dos Dados: Certifique-se de que os dados foram processados corretamente, verificando os arquivos na pasta data/processed/.

Resultados Esperados

Após a preparação dos dados, você deve ter:

  • Um conjunto de dados processado e otimizado para treinamento.
  • Labels hierárquicas para cada faixa de música, organizadas de acordo com a taxonomia musical.

Esses dados podem agora ser utilizados para treinar uma rede neural de classificação hierárquica multilabel.

Contribuição

Contribuições são bem-vindas! Sinta-se à vontade para abrir um issue ou enviar um pull request.

Licença

Este projeto está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.