Skip to content

tribodoci/busca

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Busca de Texto

Exercício de pesquisa de texto implementando um algorítimo de busca de texto completo (fulltext search). Não é um llm (large language model) pois o texto para treinamento é muito pequeno. Foi usado como referência os seguintes livros:

Lembrando que esse não é um projeto pronto para produção, é um exercício de programação de criação de um banco de dados de vetor em uma abordagem relacional, utilizando um algorítimo de contagem.

Etapas:

Criar repositório no github

Esse reposótiorio, a idéia é documentar cada passo

Baixar transcrições

Baixar a transcrição dos episódios do repositório, filtrar os *.txt, utilizar o csv com os campos.

Campo Descrição
id Campo único de Identificação do Episódio
link Link para o episódio
descricao Breve resumo do episódio
arquivo Nome do Arquivo com a descrição

A princípio a idéia era baixar os arquivos raw, porém em alguns casos eles demoram atualizar, sendo melhor baixar os arquivos diretamente do repositório com as trasncrições com o git:

git clone https://github.com/tribodoci/tribodoci-podcast-transcript.git

O caminho no arquivo src/documentos.csv está considerando que o código do repositório estão na mesma pasta.

Processar os textos

Ver doc/

Blog Post

Escrever sobre a solução em um blogpost na Tribo do C.I..

Outras Referências

Releases

No releases published

Packages

No packages published

Languages