Busca de Texto

Exercício de pesquisa de texto implementando um algorítimo de busca de texto completo (fulltext search). Não é um llm (large language model) pois o texto para treinamento é muito pequeno. Foi usado como referência os seguintes livros:

Lembrando que esse não é um projeto pronto para produção, é um exercício de programação de criação de um banco de dados de vetor em uma abordagem relacional, utilizando um algorítimo de contagem.

Etapas:

- Criar repositório no github
- Baixar transcrições
- - Solução itermediária, baixar os arquivos locais
- Leitura dos arquivos e mapear em um banco de dados
- - Mapeamento das palavaras e dos documentos
- Blog Post

Criar repositório no github

Esse reposótiorio, a idéia é documentar cada passo

Baixar transcrições

Baixar a transcrição dos episódios do repositório, filtrar os *.txt, utilizar o csv com os campos.

Campo	Descrição
`id`	Campo único de Identificação do Episódio
`link`	Link para o episódio
`descricao`	Breve resumo do episódio
`arquivo`	Nome do Arquivo com a descrição

A princípio a idéia era baixar os arquivos raw, porém em alguns casos eles demoram atualizar, sendo melhor baixar os arquivos diretamente do repositório com as trasncrições com o git:

git clone https://github.com/tribodoci/tribodoci-podcast-transcript.git

O caminho no arquivo src/documentos.csv está considerando que o código do repositório estão na mesma pasta.

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
doc		doc
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Busca de Texto

Criar repositório no github

Baixar transcrições

Processar os textos

Blog Post

Outras Referências

About

Releases

Packages

Languages

tribodoci/busca

Folders and files

Latest commit

History

Repository files navigation

Busca de Texto

Criar repositório no github

Baixar transcrições

Processar os textos

Blog Post

Outras Referências

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages