- Creazione automatica di un dizionario di potenziali parole offensive partendo da risorse open source attraverso processi di data mining - Generazione automatica tramite Large Language Model (LLM) di dati di addestramento, per ogni parola nel dizionario avremo degli esempi in cui la parola è usata con significato offensivo ed esempi in cui non - Validazione delle qualità del dataset di training attraverso controlli automatici e manuali a campione - Addestramento di un modello di classificazione binaria, come Support Vector Machine, oppure utilizzando modelli Transformer come encoders - Validazione delle perfomance ottenute attraverso score automatici, precision e recall, e con il supporto di linguisti professionisti - Estensione e validazione dell'approccio ad altre lingue, potenzialmente con scarse risorse
Tipologia tirocinio :
Extracurriculare
Data pubblicazione : 08/05/2024
Scadenza candidature : 23/05/2024
Durata tirocinio : 2 Mesi
Sede di lavoro : ROMA (ROMA )
Rimborso spese mensili (EURO) : 800
Altre facilitazioni : Nessuna facilitazione
Università : UNIVERSITÀ DEGLI STUDI DI ROMA "LA SAPIENZA"
Area : INGEGNERIA DELL'INFORMAZIONE E INFORMATICA
Facoltà : INGEGNERIA DELL'INFORMAZIONE, INFORMATICA E STATISTICA
Corso di laurea :
Ingegneria Informatica e Automatica (Laurea Triennale D.M. n. 270/2004);
Tipologia richiesta : Laureando
L'aggiornamento della piattaforma SOUL è stato realizzato con il contributo di Fondazione Roma