O conjunto de dados de repositórios foi pré-processado para clusterização com K-Means (4 clusters). Métricas como Silhouette Score (0.3035) confirmaram a boa separação. PCA e t-SNE foram usados para visualização, revelando a distinção dos:
Cluster 0: Repositórios mais antigos e com poucas estrelas, de usuários pessoais.
Cluster 1: Repositórios recentes e com poucas estrelas, de usuários pessoais.
Cluster 2: Repositórios populares de Organizações e Pessoas.
Cluster 3: Repositórios Altamente Populares (Outliers).
Próximo passo será usar NLP para aplicar clusterização e descobrir o teor dos repositórios (projetos pessoais de alunos/professores, atividades de aula, entregas de TCC, sistemas institucionais)
https://tiagojulianoferreira.github.io/mapa_codigo_publico/
#dinheiropublicocodigopublico #SoftwareLivre #CodigoAberto #InstitutosFederais #universidadepublica #SoberaniaDigital #bolhadev