Fase 1: Estrazione e Normalizzazione del Corpus Tecnico Lombardo
Strumenti consigliati:
– **spaCy** con modello multilingue (es. `xx_ent_wiki_sm`) per preprocessing ibrido.
– **SentencePiece** addestrato su un corpus bilanciato di manuali tecnici, documenti ufficiali e testi specialistici lombardi (es. 5.000 token minimi).
– **Pandoc** per conversione da formati vari (PDF, DOCX, XML) con rimozione di caratteri non standard e normalizzazione ortografica dialettale.
Procedura:
1. Caricare il corpus e applicare filtro linguistico basato su frequenza e contesto tecnico.
2. Tokenizzazione preliminare con regole ibride: separazione di forme composte (es. “macchina per calcolo” → “macchina” + “per” + “calcolo”), conservando i morfemi chiave.
3. Rimozione di caratteri speciali non linguistici (es. “—”, “[”, “(”) e punteggiatura inconsistente, mantenendo accenti e segni di punteggiatura dialettale con tagging.
4. Segmentazione di frasi lunghe in unità semantiche coerenti, con tag morfologici preliminari (es. “ha + fatto” → “ha”+ “fatto”+ “-past”).
Approccio:
Si implementa un parser morfologico esteso, integrato con algoritmi supervisionati di stemming e lemmatizzazione dialettale, basato su modelli supervisionati addestrati su un dataset annotato manualmente di 200+ forme tipiche.
Fasi operative:
1. **Annotazione supervisionata**: creazione di un dataset con tag morfologici (radice, flessione, genere, numero, tempo) per verbi, sostantivi e aggettivi, usando etichette ISO 15457 e mapping al sistema lombardo.
2. **Costruzione di regole contestuali**:
– Verbi: trasformazione di forme irregolari (“stà” → “stà+”, “far” → “fà+”) con substitis di morfemi.
– Sostantivi: aggiunta di suffissi tipici (“-t” per azioni concluse, “-ina” per agenti) su radici.
– Aggettivi: gestione di composizioni dialettali (“lavorà + fat” → “lavorà-fat” → “ha lavorato”).
3. **Parser esteso**: integrazione di un modello di classificazione NLP (es. spaCy + rule-based) che riconosce eccezioni e applica espansioni contestuali in tempo reale, mantenendo il token originale per fedeltà semantica.
Creazione del dataset:
Si definiscono due set:
– **Set di training**: 70% del corpus annotato, con esempi di forme dialettali e loro espansioni.
– **Set di test**: 30% per validazione, con casi difficili (es. “ha fatto” → “tà” vs “ha fatto” → “ha fatto” senza espansione).
Procedura addestramento:
1. Estrazione di triple (testo di input, forma target espansa, contesto morfologico).
2. Addestramento di un modello sequenza-a-sequenza (es. Transformer basato su BERT multilingue) con loss F1 su precisione di espansione.
3. Valutazione con metriche avanzate:
– **Precisione semantica**: F1 score su riconoscimento di neologismi e forme flesse.
– **Riduzione di falsi positivi**: confronto tra tokenizer originale e adattato su testi tecnici.
– **Coefficiente di coerenza semantica**: calcolato con cosine similarity tra embedding di parole espansibili e target annotati.
– Integrazione di feedback da sviluppatori tramite sistema di annotazione collaborativa (es. GitHub Issues + dashboard).
– Riconoscimento tramite modelli NLP di nuovi termini emergenti (es. “smart building” → “smart-build”).
– Generazione di nuove regole morfologiche basate su pattern ricorrenti.
- Falso positivo in lemmatizzazione: verbi dialettali simili a standard (es. “far” vs “fà”) generano confusione. Soluzione: applicare regole di disambiguazione contestuale basate su verbi circostanti e co-occorrenze lessicali.
- Perdita di contesto semantico: espansioni aggressive a “lavorà” → “ha lavorato” generano frasi meno precise. Tecnica: limitare espansione a contesti tecnici certificati e mantenere token originale in output post-processing.
- Allineamento morfologico instabile: flessioni irregolari (es. “mangia” vs “mangia+”) causano errori di parsing. Correzione: estensione del parser con regole irregolari esplicite e validazione morfologica post-tokenizzazione.
– **Corpus**: 4.200 pagine di manuale tecnico infrastrutturale lombardo (progetti ferroviarie e di edilizia).
– **Workflow applicato**:
1. Estrazione e pulizia del corpus con rimozione di formattazione.
2. Definizione di 128 regole morfologiche e costruzione di dizionario espansivo con equivalenze