Utilisation Basique de Google
Google est le moteur de recherche le plus utilisé du monde mais les utilisateurs n’utilisent qu’un petit pourcentage de sa puissance de récupération d’informations pour retrouver des données en jouant avec les différents paramètres fournis par le moteur de recherche. Concrètement il s’agit de connaître ses paramètres pour forger des requêtes beaucoup plus précises et ciblées. Nous reviendrons donc dans cette partie, sur l’utilisation usuelle du moteur de Google après avoir expliqué le fonctionnement de la récupération d’informations sur le Web par un moteur de recherche.
Présentation des différents filtres supportés par Google
Google offre un panel impressionnant d’options pour cibler sa recherche. Parmi les plus basiques, on retrouve les AND (opérateur plus +), NOT (opérateur moins -) et OR (opérateur : pipe I). L’opérateur AND sert de jointure entre différents termes ou les blocs d’une requête.
De plus, il est équivalent à l’opérateur +. On peut donc taper la requête de façon strictement équivalente : browser AND firefox et browser+firebox. Cet opérateur devient de plus en plus obsolète, car Google a pour comportement par défaut d’analyser tous les mots (sauf ceux contenus dans un bloc, qu’il considère dans son intégralité). L’opérateur NOT permet, à l’inverse de AND, d’exclure du résultat de recherche les pages contenant un mot, ou un motif. Il est plus souvent utilisé dans les requêtes par son équivalent, l’opérateur – (moins). Par exemple, en tapant la recherche : informatique -windows, Google me rendra les pages contenant le terme informatique mais ne contenant pas windows. Enfin, l’opérateur OR, équivalent de | (pipe), permet de considérer deux motifs ou plus dans la recherche.
La requête admin+ (password | passwd) + (username | login) recherchera toutes les pages contenant le terme admin, le terme password ou passwd, et le terme username ou login. Ces opérateurs élémentaires permettent déjà de faire des requêtes plus pointues. Mais ils peuvent être couplés aux filtres suivants, pour aller plus loin dans le filtrage. Leur syntaxe est la suivante :
{ + | – } opérateur : motif
‘ + ‘ : affichera dans les résultats les requêtes validant ce filtre
‘ – ‘ : affichera les résultats ne validant pas ce filtre
Il ne s’agit en fait que d’une partie des filtres de Google mais ce sont ceux les plus utilisés pour affiner une recherche. Lançons donc quelques recherches dans Google en combinant efficacement les filtres fournis par le Tableau 2 :
Inurl : .inc +intext :
mysql _ connect -inurl :
( .php| .html | .htm | .asp) va retourner des pages de configuration PHP contenant des informations comme le login et mot de passe de leur base de données ; les ‘.inc’ étant une extension souvent utilisée par des webmasters pour les fichiers à inclure dans du code PHP,
Site : microsoft.com +inurl : microsoft.com -www.microsoft.com : cette technique se nomme Site Mapping et consiste à récupérer tous les sous-domaines d’un site. On peut ainsi connaître une partie de la topologie DNS du nom de domaine ciblé.
Le tableau des filtres Google.
Syntaxe du Filtre | Description |
Inurl | Retourne les pages contenant dans leur URL l’argument mentionné – exemple : inurl:admin |
filetype | Retourne les pages contenant un lien vers un fichier du type mentionné en argument – exemple : filetype:pdf |
intext | Recherche un motif dans le contenu – exemple : intext: mysql_connect |
site | Permet de filtrer la recherche sur un site passé en argument. |
link | Retourne l’ensemble des pages contenant un lien vers le motif passé en argument. |
cache | Permet d’accéder à la version mis en cache par Google. Cette option est surtout utilisée pour visiter discrètement un site. |
define | Fournit une définition au terme passé en argument |
intitle | Recherche dans le champ <tittle></title> de la page HTML |
ext | Recherche dans les pages dont l’extension (html, php, etc) est le motif passé |
[X]…[Y] | Effectue une recherche dans l’internaute [X,Y]. Par exemple:page+1…100 |
info | Récupère des informations sur le site passé en paramètres. Par exemple, info:www.kernel.org |
related | Retrouve les sites sémantiquement liés aux paramètres. Par exemple, related:www.kernel.org |