Este projeto tem como objetivo a preparação dos dados do dataset FMA Large para treinamento de uma rede neural de classificação hierárquica multilabel. O dataset FMA Large contém informações detalhadas sobre músicas, como características de áudio e metadados, que serão utilizados para treinar um modelo que pode lidar com a complexidade das tarefas de classificação hierárquica.
- Visão Geral
- Estrutura do Projeto
- Requisitos
- Instruções de Uso
- Código
- Resultados Esperados
- Contribuição
- Licença
O projeto foca na extração, transformação e organização dos dados contidos no FMA Large Dataset para que possam ser utilizados em um modelo de classificação hierárquica multilabel. A preparação dos dados inclui:
- Carregamento e limpeza dos dados.
- Transformação dos dados para o formato necessário para o modelo.
- Criação de labels hierárquicas para treinamento.
- Armazenamento dos dados preparados em um formato eficiente para uso durante o treinamento.
├── fma_prep/
│ ├── raw/ # Dados brutos do FMA Large Dataset
│ ├── processed/ # Dados processados e prontos para uso
│ └── labels/ # Labels hierárquicos gerados para cada faixa
├── notebooks/
│ ├── data_preparation.py # Script principal para preparação dos dados
│ └── utils.py # Funções auxiliares para transformação de dados
├── README.md # Documentação do projeto
└── requirements.txt # Dependências necessárias para o projeto
Antes de iniciar, certifique-se de que você tem as seguintes dependências instaladas:
- Python 3.8+
- Bibliotecas listadas em
requirements.txt
Instale as dependências com:
pip install -r requirements.txt
-
Download do Dataset: Baixe o FMA Large Dataset no site oficial FMA Large Dataset e coloque os arquivos na pasta
data/raw/
. -
Preparação dos Dados: Execute o script
data_preparation.py
para preparar os dados:python src/data_preparation.py
Isso irá gerar os dados processados na pasta
data/processed/
e as labels na pastadata/labels/
. -
Verificação dos Dados: Certifique-se de que os dados foram processados corretamente, verificando os arquivos na pasta
data/processed/
.
Após a preparação dos dados, você deve ter:
- Um conjunto de dados processado e otimizado para treinamento.
- Labels hierárquicas para cada faixa de música, organizadas de acordo com a taxonomia musical.
Esses dados podem agora ser utilizados para treinar uma rede neural de classificação hierárquica multilabel.
Contribuições são bem-vindas! Sinta-se à vontade para abrir um issue ou enviar um pull request.
Este projeto está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.