www.corpusitaliano.it
Open in
urlscan Pro
193.106.181.75
Public Scan
URL:
https://www.corpusitaliano.it/
Submission: On April 01 via automatic, source certstream-suspicious — Scanned from IT
Submission: On April 01 via automatic, source certstream-suspicious — Scanned from IT
Form analysis
1 forms found in the DOMPOST it/access/simple_interface.php
<form action="it/access/simple_interface.php" method="post">
<p> ricerca nel corpus <br>
<input type="hidden" name="corpus" value="PAISA_META2">
<input type="text" name="query">
<input type="submit" value="invia">
</p>
</form>
Text Content
ricerca nel corpus Contatto: info(at)corpusitaliano(dot)it English Italiano * Benvenuti Benvenuti benvenuti su PAISÀ * Corpus dell'Italiano Corpus dell'Italiano informazioni generali & download costituzione del corpus accesso online * Progetto PAISÀ Progetto PAISÀ descrizione partenariato finanziamento * Materiale di consultazione Materiale di consultazione pubblicazioni help pages / manuali BENVENUTI SU PAISÀ Queste pagine web sono dedicate al corpus PAISÀ, un’ampia collezione di testi autentici in lingua italiana tratti da Internet. La raccolta di testi contemporanei è stata creata nell’ambito del progetto PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati) allo scopo di fornire materiale autentico e disponibile gratuitamente per l’apprendimento dell’italiano. Ne è nata una risorsa unica per la lingua italiana, poiché riunisce in sé diverse caratteristiche: * testi tratti dal web (raccolti nel settembre/ottobre del 2010) * composto interamente di testi disponibili e riutilizzabili gratuitamente (protetti da licenze creative commons attribuzione - condividi allo stesso modo e attribuzione - condividi allo stesso modo - non commerciale) * dimensioni: ca. 250 milioni di token * completamente annotato nel formato CoNLL (lemmatizzazione e annotazione delle parti del discorso (oppure anche qui)) e delle dipendenze sintattiche) * pretrattato in maniera automatica e in parte corretto manualmente (vari passaggi effettuati: reperimento degli indirizzi URL, pretrattamento dei testi raccolti e correzione delle annotazioni per la taratura degli strumenti di annotazione) Pur essendo stato nato principalmente per l’apprendimento, il corpus PAISÀ rappresenta anche una preziosa risorsa per diverse attività di ricerca linguistica. Il sito intende offrire un’interfaccia per gli apprendenti attraverso cui accedere al corpus online. Vi sono varie modalità di accesso al corpus pensate per diversi gruppi di utenti, dalle ricerche preimpostate alla possibilità di definire i criteri di ricerca in maniera completamente flessibile creando query complesse. Attualmente è un lavoro in fase di continuo aggiornamento e progresso. In queste pagine troverete anche informazioni sul progetto PAISÀ, i dettagli su come è stata costituita la raccolta di testi e delle versioni scaricabili dell’intero corpus. Il progetto PAISÀ è finanziato dal Ministero dell’Istruzione, dell’Università e della Ricerca (MIUR) attraverso il Fondo per gli Investimenti della Ricerca di Base (FIRB).