Skip to content

Latest commit

 

History

History
44 lines (36 loc) · 2.4 KB

README.md

File metadata and controls

44 lines (36 loc) · 2.4 KB

Busca de Texto

Exercício de pesquisa de texto implementando um algorítimo de busca de texto completo (fulltext search). Não é um llm (large language model) pois o texto para treinamento é muito pequeno. Foi usado como referência os seguintes livros:

Lembrando que esse não é um projeto pronto para produção, é um exercício de programação de criação de um banco de dados de vetor em uma abordagem relacional, utilizando um algorítimo de contagem.

Etapas:

Criar repositório no github

Esse reposótiorio, a idéia é documentar cada passo

Baixar transcrições

Baixar a transcrição dos episódios do repositório, filtrar os *.txt, utilizar o csv com os campos.

Campo Descrição
id Campo único de Identificação do Episódio
link Link para o episódio
descricao Breve resumo do episódio
arquivo Nome do Arquivo com a descrição

A princípio a idéia era baixar os arquivos raw, porém em alguns casos eles demoram atualizar, sendo melhor baixar os arquivos diretamente do repositório com as trasncrições com o git:

git clone https://github.com/tribodoci/tribodoci-podcast-transcript.git

O caminho no arquivo src/documentos.csv está considerando que o código do repositório estão na mesma pasta.

Processar os textos

Ver doc/

Blog Post

Escrever sobre a solução em um blogpost na Tribo do C.I..

Outras Referências