www.corpusitaliano.it Open in urlscan Pro
193.106.181.75  Public Scan

URL: https://www.corpusitaliano.it/
Submission: On April 01 via automatic, source certstream-suspicious — Scanned from IT

Form analysis 1 forms found in the DOM

POST it/access/simple_interface.php

<form action="it/access/simple_interface.php" method="post">
  <p> ricerca nel corpus <br>
    <input type="hidden" name="corpus" value="PAISA_META2">
    <input type="text" name="query">
    <input type="submit" value="invia">
  </p>
</form>

Text Content

ricerca nel corpus


Contatto:
info(at)corpusitaliano(dot)it

English    Italiano

 * Benvenuti Benvenuti benvenuti su PAISÀ
 * Corpus dell'Italiano Corpus dell'Italiano informazioni generali & download
   costituzione del corpus accesso online
 * Progetto PAISÀ Progetto PAISÀ descrizione partenariato finanziamento
 * Materiale di consultazione Materiale di consultazione pubblicazioni
   help pages / manuali  


BENVENUTI SU PAISÀ

Queste pagine web sono dedicate al corpus PAISÀ, un’ampia collezione di testi
autentici in lingua italiana tratti da Internet. La raccolta di testi
contemporanei è stata creata nell’ambito del progetto PAISÀ (Piattaforma per
l’Apprendimento dell’Italiano Su corpora Annotati) allo scopo di fornire
materiale autentico e disponibile gratuitamente per l’apprendimento
dell’italiano.

Ne è nata una risorsa unica per la lingua italiana, poiché riunisce in sé
diverse caratteristiche:

 * testi tratti dal web (raccolti nel settembre/ottobre del 2010)
 * composto interamente di testi disponibili e riutilizzabili gratuitamente
   (protetti da licenze creative commons attribuzione - condividi allo stesso
   modo e attribuzione - condividi allo stesso modo - non commerciale)
 * dimensioni: ca. 250 milioni di token
 * completamente annotato nel formato CoNLL (lemmatizzazione e annotazione delle
   parti del discorso (oppure anche qui)) e delle dipendenze sintattiche)
 * pretrattato in maniera automatica e in parte corretto manualmente (vari
   passaggi effettuati: reperimento degli indirizzi URL, pretrattamento dei
   testi raccolti e correzione delle annotazioni per la taratura degli strumenti
   di annotazione)

Pur essendo stato nato principalmente per l’apprendimento, il corpus PAISÀ
rappresenta anche una preziosa risorsa per diverse attività di ricerca
linguistica.

Il sito intende offrire un’interfaccia per gli apprendenti attraverso cui
accedere al corpus online. Vi sono varie modalità di accesso al corpus pensate
per diversi gruppi di utenti, dalle ricerche preimpostate alla possibilità di
definire i criteri di ricerca in maniera completamente flessibile creando query
complesse. Attualmente è un lavoro in fase di continuo aggiornamento e
progresso.

In queste pagine troverete anche informazioni sul progetto PAISÀ, i dettagli su
come è stata costituita la raccolta di testi e delle versioni scaricabili
dell’intero corpus.

Il progetto PAISÀ è finanziato dal Ministero dell’Istruzione, dell’Università e
della Ricerca (MIUR) attraverso il Fondo per gli Investimenti della Ricerca di
Base (FIRB).