ci dovrebbe essere una specie di ocr che trasforma i pdf in mid