Web
Rifinire una ricerca
by root on feb.22, 2012, under Google Guide, Parte I: Comporre le richieste, Web
Rifinire una ricerca vuol dire cambiare o aggiungere l’insieme dei termini di ricerca per fare un lavoro migliore nell’ottenere le pagine che si desiderano. I ricercatori di successo di frequente fanno diverse ricerche per trovare ciò che cercano.
Il campo di ricerca nella pagina dei risultati mostra quale interrogazione ha prodotto quei risultati. Se la richiesta usa operatori speciali che avete inserito direttamente o indirettamente mediante la pagina di ricerca avanzata, anch’essi appariranno nel campo di ricerca. Per raffinare la richiesta, editate quello che trovate nel campo di ricerca quindi cliccate sul bottone Cerca di Google o premete il tasto INVIO.
Vediamo qualche esempio.
- Ricavate le idee per le ricerche successive osservando i risultati, inclusi gli snippets che Google restituisce e le pagine da cui provengono.
- Havete preso un raffreddore quest’inverno?
- PROVATE [ flu shot ]
- Molti dei risultati sono riferiti a vaccini per l’influenza.
- RIFINITE [ flu OR influenza shot OR vaccine ]
- Havete preso un raffreddore quest’inverno?
Sfruttate le interrogazioni che hanno avuto successo: osservatene attentamente i risultati. Scorrete fino al campo di ricerca in fondo alla pagina e cliccate sul link “Search within results.” Facendo così Google eseguirà una nuova ricerca utilizzando i nuovi termini immessi (quelli nel campo di input) solamente fra le pagine che ha trovato dall’interrogazione iniziale, invece di ricecare fra tutto il web(questa caratteristica è ora deprecata e non più disponibile n.d.t.).

Potete ottenere i medesimi risultati di Search within results con un passo in meno specificando semplicemente termini aggiuntivi alla vostra interrogazione precedente. Su Internet Explorer ed altri navigatori, potete cambiare un termine o l’intera interrogazione facilmente. Per prima cosa, evidenziate la parte che volete cambiare facendo doppio click su una parola, o cliccando tre volte per evidenziare l’intera interrogazione. Quindi potete sia premere il tasto DELETE per rimuovere il testo evidenziato, sia scrivere direttamente un nuovo testo.- Ad esempio, per cambiare “great vacation spots” in “great vacation areas,” cliccate due volte sulla parola “spots” qui sotto e scrivete “areas.”
- Invece di cercare argomenti correlati con una singola interrogazione, dividete l’interrogazione in diverse parti. Cercate un lavoro? Cercando suggerimenti per ogni aspetto, troverete più siti che cercando tutti gli aspetti di una ricerca di lavoro.
La presente tabella riporta suggerimenti sia per affinare o specificare una ricerca, sia suggerimenti per espandere una ricerca che ha prodotto pochi risultati utili. Cliccate su un link nella tabella per essere portati alla corrispondente sezione di Google Guide che descrive le caratteristiche ed i modi per rifinire la richiesta.
| Troppi risultati? Focalizzate la ricerca su… | Troppo pochi risultati? Ampliate la ricerca mediante… |
|---|---|
| aggiungi una parola o una frase | rimuovi una parola o una frase |
| specifica l’ordine in cui volete appaiano le parole | specifica parole invece di frasi |
| usa un termine più specifico | usa termini più generici |
| identifica i termini inefficaci e rimuovili | includi sinonimi o varianti o usa una versione del vocabolo più comune |
| limita la ricerca ad un dominio o un sito | espandi il dominio o cerca nell’intero web |
| limita ad una gamma di date | rimuovi la gamma di date |
| limita dove occorre il termine | rimuovi i termini ridondanti o suddividi l’interrogazione in più parti |
| restringi per tipo di file | ricerca qualsiasi tipo di file |
| limita le pagine ad una lingua particolare | traduci i termini di ricerca in altre lingue e cerca i termini tradotti |
| limita le pagine ad un paese particolare | cerca nell’intero web |
Per un tutorial su come utilizzare la ricerca avanzata, visita www.lib.monash.edu.au/vl/google/goog06.htm.
Esercizi
Questo problema è disegnato per fornirvi pratica nello specificare più precisamente ciò che state cercando usando il form di ricerca avanzata. Per suggerimenti o risposte a determinati problemi, guardate la pagina delle Soluzioni.
- Quali sono alcuni fra i rimedi per sconfiggere le formiche?
- Trova informazioni sul taglio degli artigli dei gatti.
- Che cos’è la politica della privacy di Google? Come posso impedire la comparsa delle mie ricerche precedenti quando faccio una nuova ricerca?
- Alcune stelle del cinema frequentano feste Botox. Che succede a quelle feste e perchè vi partecipano? Quali stelle usano il Botox?
- Nina Totenberg, corrispondente affari legali della National Public Radio’s (NPR), quando è nata? Dove è stata educata? Che laurea possiede? Frequenta la scuola di legge?
- Quando cercate in Google per un URL, come www.guardian.co.uk, quali link sono inclusi nei risultati della ricerca? Cosa viene visualizzato nel campo di ricerca quando si preme il link “Trova pagine web che contengono il termine “www.guardian.co.uk”?
- Che paese possiede il codice di dominio .at?
- Che paese ha il codice di dominio .bm?
- Eseguite alcune ricerche in Soople.
- Eseguite alcune ricerche con Google Blaster.
Condividi...
Come funziona Google
by root on gen.14, 2012, under Google Guide, Parte II: Comprendere i risultati, Web
Se non siete interessati a sapere come Google crea l’index ed il database dei documenti a cui accede quando processa una query, saltte questo capitolo. Ho adattato la seguente panoramica dalla meravigliosa descrizione di Chris Sherman e Gary Price su “”How Search Engines Work” nel capitolo 2 di The Invisible Web (CyberAge Books, 2001).
Google è eseguito su una rete distribuita di migliaia di calcolatori a basso costo che permette una veloce elaborazione di richieste parallele. Il “parallel processing” è un metodo computazionale in cui i calcoli possono essere performati simultaneamente, velocizzando significativamente l’elaborazione dei dati. Google ha tre parti distinte:
- Googlebot, un web crawler che trova e recupera le pagine web.
- L’indexer che ordina ogni parola su ogni pagina e salva i risultati in un indice di parole in un enorme database.
- Il processore di query, che compara le vostre ricerche nell’indice e consiglia i documenti che considera più rilevanti.
Diamo un occhiata ravvicinata di ogni parte.
1. Googlebot, il Web Crawler di Google
Googlebot è il robot di Google che si occupa di ispezionare le pagine del web, esso trova e recupera le pagine nel web e le consegna al Google indexer. E’ facile immaginare il Googlebot come un piccolo ragno che corre velocemente attraverso i fili del cyber spazio, ma in realtà Googlebot non attraversa affatto il web. Esso funziona più come il vostro navigatore web, spedendo una richiesta ad un web server per una pagina web, scaricando l’intera pagina, e quindi passandola all’indexer di Google.
Googlebot è fatto da molti computer che richiedono e recuperano pagine molto più velocemente di come potreste fare con un web browser. Infatti, Googlebot può richiedere migliaia di pagine web simultaneamente. Per evitare di affaticare eccessivamente i web server, o sovraffollare le richieste provenienti da utenti umani, Googlebot deliberatamente fa richieste a ciascun web server più lentamente di quanto sia capace.
Googlebot trova le pagine in due modi: attraverso un form di aggiunta URL, www.google.it/addurl.html, e mediante la rilevazione dei links durante la lettura delle pagine web web (benchè ancora disponibile per gli utenti italiani, tale pagina è stata rimossa da Google in lingua inglese, ed integrata nella pagina webmaster tools, n.d.t.).

Sfortunatamente, gli spammers hanno trovato il modo di creare bots automatizzati che bombardano il form di aggiunta URL con milioni di URL che puntano a propaganda commerciale. Google rigetta questi URL inviati mediante il form di aggiunta URL sospetti di fuorviare gli utenti utilizzando tattiche quali testo nascosto o pile di links verso una pagina, riempire una pagina di parole irrilevanti, cloaking (aka mordi e cambia), usando subdoli redirects, creando portali, domini, o sub-domini con contenuti sostanzialmente uguali, che spediscono richieste automatizzate a Google, e linking siti maliziosi. Perciò ora il form di aggiunta URL possiede anche un test: esso mostra alcune lettere distorte per far impazzire gli script automatizzati “indovina-caratteri”; vi chiede di trascrivere le lettere che vedete – qualcosa tipo un riconoscimento visivo per fermare gli spambots.
Quando Googlebot recupera una pagina, batte tutti i links che appaiono nella pagina e li aggiunge ad una coda per il successivo recupero. Googlebot tende ad incontrare un po di spam perché molti autori del web collegano solo ciò che ritengono siano pagine di alta qualità. Raccogliendo links da ogni pagina che incontra, Googlebot può velocemente costruire un elenco di links che possono coprire un ampia parte del web. Questa tecnica, conosciuta come deep crawling, permette inoltre a Googlebot di verificare la profondità per ciascun sito. A causa della loro vasta scala, i deep crawl possono raggiungere praticamente quasi tutte le pagine del web. A causa della vastità del web, puo volerci diverso tempo, cosicchè certe pagine possono essere scansite solo una volta al mese.
Nonostante il suo funzionamento sia semplice, Googlebot deve essere programmato per gestire diverse sfide. Primo, poiché Googlebot invia richieste simultanee per migliaia di pagine, la coda degli URL da “visitare al più presto” deve essere costantemente esaminata e comparata con gli URL già presenti nell’indice di Google. I duplicati nella coda debbono essere eliminati per prevenire che Googlebot recuperi nuovamente la medesima pagina. Googlebot deve determinare quanto spesso rivisitare una pagina. Da una parte, è uno spreco di risorse re-indicizzare una pagina non cambiata. Dall’altra, Google vuole re-indicizzare le pagine mutate per fornire risultati aggiornati.
Per mantenera l’indice aggiornato, Google riesamina continuamente le pagine web più popolari che cambiano più di frequente con una frequenza proporzionale alla velocità dei cambiamenti. Questi aggiornamenti rendono l’indice attuale e sono meglio noti come fresh crawls. Le pagine dei giornali sono scaricate giornalmente, le pagine di quotazione dei titoli sono scansite più frequentemente. Naturalmente, i fresh crawls restituiscono meno pagine di un esame approfondito (deep crawl). La combinazione dei due tipi di esame permette a Google di mantenere l’indice aggiornato e di risparmiare risorse in modo ragionevole.
2. L’indicizzatore di Google’s
Googlebot fornisce all’indicizzatore il testo completo delle pagine che esamina. Queste pagine sono registrate nel database dell’indice di Google. Questo indice è ordinato alfabeticamente per termine di ricerca, per ogni termine dell’indice sono associati una serie di documenti in cui appaiono i termini e la locazione dove il testo è individuato. Questa struttura di dati permette un accesso rapido ai documenti che contengono i termini di ricerca utente .
Per migliorare le prestazioni delle ricerche, Google ignora (non indicizza) le parole comuni chiamate stop words (come il, è, su, o, di, come, perché, come anche certi singoli caratteri o lettere). Le stop words sono così comuni che sono poco significative per raffinare una ricerca, perciò possono essere tranquillamente scartate. L’ indexer ignora anche alcune puntualizzazioni e spazi multipli, oltre a convertire tutti i testi in lettere minuscole, per migliorare le prestazioni di Google.
3. Il processore di query di Google
Il processore di query è composto da diverse parti, inclusa l’interfaccia utente (il campo di ricerca), l’“engine” che valuta le interrogazioni e trova i riscontri nei documenti più rilevanti, ed il formattatore dei risultati.
PageRank è il sistema di Google per dare una graduatoria alle pagine web. Una pagina con un PageRank più elevato è considerata più importante e sarà probabilmente posta più in altro rispetto ad una pagina con un PageRank inferiore.
Google considera oltre cento fattori per estrapolare il suo PageRank e determinare quali documenti sono più rilevanti per un interrogazione, inclusa la popolarità della pagina, la posizione ed il numero dei termini di ricerca all’interno della pagina, e la prossimità fra i termini di ricerca nella pagina. Un applicazione sui brevetti enumera altri fattori che Google considera quando formula il rank di una pagina. Visitate SEOmoz.org’s report per un interpretazione sui concetti e l’applicazione pratica contenuta nell’applicativo brevettato da Google.
Google applica anche tecniche di apprendimento-macchina per migliorare automaticamente le sue prestazioni imparando le relazioni e le associazioni frai dati immagazzinati. Ad esempio, il sistema di correzione ortografica usa queste tecniche per suggerire parole alternative. Google presta molta attenzione alle formule impiegate per calcolare la rilevanza; essi sono adattati per migliorare la qualità e le prestazioni, ed evitare le tecniche devianti degli spammers.
Indicizzare tutto il testo del web permette a Google di andare oltre il semplice riscontro dei termini di ricerca. Google da più priorità alle pagine che hanno termini vicini fra loro e nello stesso ordine dell’interrogazione. Google può anche trovare corrispondenze con parole multiple frasi e sentenze. Poiché Google indicizza il codice HTML oltre al testo della pagina, gli utenti possono restringere le ricerche sulla base di dove le parole delle interrogazioni compaiono, es., nel titolo, nell’URL, nel body, e nei link della pagina, opzioni offerte dal form di ricerca avanzata di Google ed Usando gli Operatori Avanzati.
Vediamo come Google processa un’interrogazione.

Per maggiori informazioni su come funziona Google, leggete i seguenti articoli.
- La pagina di Google sulla sua tecnologia, www.google.com/technology/.
- Come Google colleziona ed attribuisce il rank ai risultati?, www.google.com/newsletter/librarian/librarian_2005_12/article1.html.
- L’algoritmo di PageRank di Google e come funziona, www.iprcom.com/papers/pagerank/
- L’algoritmo di PageRank di Google spiegato e come ottenere il massimo da esso, www.webworkshop.net/pagerank.html
Condividi...
La pagina dei risultati
by root on dic.30, 2011, under Google Guide, Parte II: Comprendere i risultati, Web
La pagina dei risultati è piena di informazioni e links, molti dei quali correlati alla vostra ricerca.

- Google Logo: Cliccate sul logo di Google per andare sulla pagina di Google.
- Barra delle statistiche: Descrive la ricerca, include i la quantità dei risultati stimati, ed il tempo di ricerca necessario. Per motivi di efficienza, Google stima il numero dei risultati; ci vorrebbe molto più tempo per computare il numero esatto. Questa stima non è affidabile.
- Suggerimenti: Talvolta Google mostra dei suggerimenti appena sotto la barra delle statistiche.

- Risultati della ricerca: Ordinati per rilevanza per la vostra richiesta, con i risultati che Google considera i più rilevanti elencati per primi. Di conseguenza potreste velocemente trovare ciò che cercate guardando velocemente i risultati nell’ordine in cui appaiono. Google accerta la rilevanza considerando più di un centinaio di fattori, inclusa la quantità di pagine che linkano la pagina, la posizione dei termini di ricerca all’interno della pagina, e la prossimità fra un termine di ricerca ed un altro.Seguono le descrizioni di alcuni componenti dei risultati della ricerca. Queste componenti appaiono con fonts di colori differenti sulla pagina dei risultati per rendere semplice distinguerli.
- Titolo della pagina: (blue) Il titolo della pagina web, se la pagina ha un titolo, o il suo URL se la pagina non ha titolo o se Google non ha indicizzato il contenuto completo della pagina. Cliccate sul titolo della pagina (es., Adamantio – Wikipedia) per visualizzare la pagina corrispondente.
- Snippets: (nero) Ciascuna pagina dei risultati solitamente include uno o più brevi estratti del testo che coincidono con la vostra richiesta con i vostri termini di ricerca in grassetto. Ciascun estratto o snippet è separato da un ellissi (…). Questi frammenti, che appaiono con un font di colore nero, possono fornirvi informazioni su
- Le informazioni che stavate cercando
- Cosa pensavate di trovare sulla pagina collegata
- Idee sui termini da utilizzare nella ricerca successiva
Quando Google non ha indicizzato la pagina, il risultato non includerà il frammento. Una pagina potrebbe non essere stata indicizzata perchè il suo editore ha richiesto di non indicizzarla, o perchè la pagina è stata scritta in un modo difficilmente interpretabile dal bot di google.
- URL dei risultati: (verde) L’indirizzo web del risultato della ricerca. Nella schermata (sotto si vede meglio), l’ URL del primo risultato è
it.wikipedia.org/wiki/Adamantio. - Data e numero di visite: (grigio) Se avete avuto accesso ai servizi Google la data vi indica l’ultima volta che avete visitato il sito e quante volte lo avete visitato.
- Risultati nidificati: Quando Google trova molteplici risultati nello stesso sito web, elenca le pagine successive in forma indentata rispetto al risultato principale. Nella schermata, vediamo i risultati indentati per il sito
www.adamantio.net. Limitando il numero dei risultati da un dato sito google si assicura che l’intera pagina dei risultati non sia monopolizzata da una sola sorgente bensì popolata da più siti web diversi. - Più risultati: Quando ci sono più risultati che provengono da uno stesso sito, l’accesso ai siti rimanenti viene garantito con il link “Più risultati da…” . Quando Google restituisce più di una pagina di risultati, potete vedere le pagine successive cliccando sulle “o” o sui numeri che appaiono nella stravagante scritta “Goooooooooogle” in fondo alla pagina dei risultati di ricerca.

- Se avete disattivato la caratteristica dell’”instant search” nelle preferenze utente generali, considerate di aumentare il numero dei risultati che Google mostra nella pagina dei risultati.In pratica, comunque, se le pagine che vi interessano non sono frai primi 10 risultati, considerate di raffinare la vostra richiesta al posto di navigare fra le pagine di risultati irrilevanti. Per semplificare tale raffinamento, Google include un campo di ricerca in cima alla pagina e diversi link ai con i risultati correlati in fondo alla pagina.
- Link sponsorizzati: I risultati possono includere dei link a siti sponsorizzati (annunci pubblicitari), chiaramente indicati da uno sfondo rosa e dalla scritta “Annuncio”, rilevanti per la vostra ricerca. Se compare almeno un termine della vostra ricerca nell’annuncio, Google lo evidenzierà mostrandolo in grassetto.
- Correttore ortografico, Definizioni di dizionario, Pagine cache, Simili, Notizie, Informazioni sui prodotti, Traduzione, Risultati per i libri: I vostri risultati potrebbero includere questi links, che saranno descritti nei prossimi capitoli.
Ecco un’altra schermata della pagina dei risultati in caso quella superiore fosse uscita dallo schermo o fosse poco leggibile.

Per maggiori informazioni su cos’è incluso nella pagina dei risultati di Google, visita www.google.com/help/interpret.html.
