{
“cells”: [
{
“cell_type”: “markdown”,
“id”: “69b86865”,
“metadata”: {},
“source”: [
“# Esercizio: Analisi Computazionale di un Corpus Linguistico\n”,
Corso DH\n”,
“\n”,
“In questo notebook esploriamo un corpus di esempio con strumenti di NLP usando spaCy.”
]
},
{
“cell_type”: “code”,
“execution_count”: null,
“id”: “3d6ec72a”,
“metadata”: {},
“outputs”: [],
“source”: [
“# Installazione di spaCy e modello italiano\n”,
“!pip install -q spacy\n”,
“!python -m spacy download it_core_news_sm”
]
},
{
“cell_type”: “code”,
“execution_count”: null,
“id”: “934c9051”,
“metadata”: {},
“outputs”: [],
“source”: [
“# Caricamento del modello italiano\n”,
“import spacy\n”,
“nlp = spacy.load(‘it_core_news_sm’)”
]
},
{
“cell_type”: “code”,
“execution_count”: null,
“id”: “9aa4535e”,
“metadata”: {},
“outputs”: [],
“source”: [
“# Testo di esempio\n”,
“text = ”’I Promessi Sposi è un romanzo storico scritto da Alessandro Manzoni. È considerato uno dei capolavori della letteratura italiana.”’”
]
},
{
“cell_type”: “code”,
“execution_count”: null,
“id”: “1924512a”,
“metadata”: {},
“outputs”: [],
“source”: [
“# Analisi del testo\n”,
“doc = nlp(text)\n”,
“for token in doc:\n”,
” print(f'{token.text:15} {token.lemma_:15} {token.pos_:10} {token.dep_:10}’)”
]
},
{
“cell_type”: “code”,
“execution_count”: null,
“id”: “59dbcdd4”,
“metadata”: {},
“outputs”: [],
“source”: [
“# Visualizzazione della struttura sintattica\n”,
“from spacy import displacy\n”,
“displacy.render(doc, style=’dep’, jupyter=True)”
]
},
{
“cell_type”: “code”,
“execution_count”: null,
“id”: “1a4c3030”,
“metadata”: {},
“outputs”: [],
“source”: [
“# Estrazione dei lemmi più frequenti\n”,
“from collections import Counter\n”,
“lemmas = [token.lemma_ for token in doc if not token.is_stop and token.is_alpha]\n”,
“Counter(lemmas).most_common(5)”
]
}
],
“metadata”: {},
“nbformat”: 4,
“nbformat_minor”: 5
}