seo – Sam & Max http://sametmax.com Du code, du cul Wed, 23 Dec 2020 13:35:02 +0000 en-US hourly 1 https://wordpress.org/?v=4.9.7 32490438 Authoriser GoogleBot à crawler certains contenus de votre site sous Django avec Reverse DNS Lookup http://sametmax.com/authoriser-googleboot-a-crawler-certains-contenus-de-votre-site-sous-django-avec-reverse-dns-lookup/ http://sametmax.com/authoriser-googleboot-a-crawler-certains-contenus-de-votre-site-sous-django-avec-reverse-dns-lookup/#comments Tue, 20 Nov 2012 20:29:46 +0000 http://sametmax.com/?p=3165 Si vous avez du contenu rich media que vous voulez le faire indexer par Google vous allez devoir proposer dans votre Sitemap un lien vers votre contenu video ou image. Et vous n’avez certainement pas envie que tout le monde puisse puiser dedans.

D’après La doc Google, le rich media c’est l’avenir, micro-datas, sitemap video, etc… faut être à la page.
Du coup vous avez envie que votre contenu se retrouve indexé par Google et rien que lui, ou pas lui et rien que Yahoo, ou pas Yahoo et rien que Bing, ou pas que Bing mais rien que Yahoo et Google et aussi un peu Bing finalement mais surtout pas Da silva…Je l’aime pas Da silva

Google conseille d’utiliser le Reverse DNS lookup. En gros de récupérer le nom de domaine du robot en fonction de l’IP qui vous crawle.

On fait une fonction qui check l’ip et on gère le retour dans la vue Django:

def allowed_bot(ip):
    """
        Do a reverse dns lookup on IP to get domain 
        and check if it is a bot from know search engines
    """
    allowed_bots = ['.msn.com', '.yahoo.com', '.googlebot.com']
    try:
        socket.setdefaulttimeout(5)
        host = socket.gethostbyaddr(ip)[0]
    except socket.herror:
        return False

    for bot in allowed_bots:
        if host.find(bot) > 0:
            return True

def ma_vue(request):
    """
       redirect to video to index
    """
    ip = request.META.get('REMOTE_ADDR', None)

    if allowed_bot(ip): 
        return http.HttpResponseRedirect("http://monsite.com/video/meme.flv") 
    else:
        return http.http404

Cette méthode n’est pas à utiliser pour une vue qui retourne une page entière car ça ferait une requête à chaque fois, mais pour du contenu qu’on a mis à dispo dans un Sitemap comme un player flv .

Exemple de sitemap avec la balise video :


          
      http://www.monsite.com/player.swf?file=/play/76293.xml
      http://www.monsite.com/video/76293/thumbnail.jpg
      mémé à l'île de la raie
      Aller mémé te laisse pas ratrapper par la raie !
    

Il y a d’autres solutions comme récupérer la liste de toutes les IPs des crawlers et les passer à Nginx en adaptant un peu cet article

NB: Si vous utilisez nginx en tant que proxy n’oubliez pas d’inclure proxy_set_header pour renvoyer la bonne IP du client:

location / {
  proxy_pass        http://monsite_cherrypy;
  proxy_set_header  X-Real-IP  $remote_addr;
}
]]>
http://sametmax.com/authoriser-googleboot-a-crawler-certains-contenus-de-votre-site-sous-django-avec-reverse-dns-lookup/feed/ 30 3165
Google ne sait plus référencer correctement les sites, la preuve en images http://sametmax.com/google-ne-sait-plus-referencer-correctement-les-sites-la-preuve-en-images/ http://sametmax.com/google-ne-sait-plus-referencer-correctement-les-sites-la-preuve-en-images/#comments Thu, 01 Nov 2012 14:33:32 +0000 http://sametmax.com/?p=2810 Article un peu provocateur certes mais les résultats Google sont de plus en plus médiocres, j’en veux pour preuve le site de vos dévoués serviteurs, sam & max. En fouinant dans les mots-clefs qui vous font venir ici je m’aperçois que pour certains on ressort non seulement sur la première page des résultats Google mais qu’en plus on rafle la place à des sites institutionnels.

Deux exemples au menu, je précise que les tests ont été fait depuis différents navigateurs, sur des IP différentes, sans être loggué avec un quelconque compte Google.

1. Que les diététitiens me lèchent les couilles!
Je rafle la première place car je suis le plus beau, c’est normal j’ai pondu un seul article sur comment bien manger et paf nous voilà sur la première page devant mangerbouger.fr.

10 000$ le backlink, qui n'en veut ?

En cherchant sur pagerank.fr j’ai constaté que mangerbouger.fr avait un pagerank de 6 (sametmax.com a un pagerank de 2) et 1080 bakclinks contre une 20aine pour S&M. C’est quand même un comble, honte sur eux…

2. Youporn a qu’à bien se tenir!
On domine les résultats des recherchent sur le sexe au japon. Là encore un article certes avec du contenu mais pas de quoi fouetter une naine obèse unijambiste, arrive en premier pour pas mal de mots clefs qu’un webmaster de site de boules voudrait bien avoir (sexe japon, sex japon, sexe japonais, etc..)

on fait moins les malins là !

Je pense qu’un mec qui va taper ce genre de mot-clef (safesearch désactivé) a déjà la nouille à la main prêt à solliciter les actions de la companie Kleenex et ne s’attend pas à tomber sur un site comme le nôtre.

Bientôt quand on va taper “unijambiste fisting” on va tomber sur un site de prothèses vous allez voir…

Je nous prends comme exemple mais ça commence à me le faire de plus en plus, les recherches sont beaucoup moins sympas qu’avant je trouve, il y a aussi les sites comme Wikipedia qui tombent quasi systématiquement en premier alors que presque n’importe qui peut modifier un article sournoisement pour induire le lecteur en erreur.

Conclusion:
Alors oui on pourrait croire que c’est cool d’avoir un petit site perso comme S&M qui sort pour “comment bien manger” plutôt qu’un site institutionnel, que ça permet à des sites de sortir du néant face à des mastodontes mais faudrait pas que ça tombe dans le n’importe quoi non plus.
En fait la première page des résultats de Google est de moins en moins utile je trouve, soit on croise des sites qui n’ont rien à voir avec la choucroute soit on tombe sur des géants comme Wikipedia et dont on s’en branle, voire même depuis quelques temps Google nous refourgue ses propres services (traduc, email et Cie).
Faudrait sortir un plugin qui renvoit directos sur la 2ème page ^^

HA! On vient de me signaler qu’un agent de Google vient de passer sur S&M…
En plongée…. 2000 mètres…

]]>
http://sametmax.com/google-ne-sait-plus-referencer-correctement-les-sites-la-preuve-en-images/feed/ 21 2810