Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 24/02/2021, à 17:03

alex2423

[parsing] Texte différent entre le code source de la page et son rendu

Hello tout le monde,

Je suis en train de me faire un petit script pour récupérer des infos de programme TV sur https://www.programme-television.org

Mais j'ai pu remarquer que le texte du résumé était différent entre le rendu de la page HTML et son code source.


Exemple sur Arte :
Sur la page :  https://www.programme-television.org/fi … #967762846.
Le résumé indique : 

Après que son mari l'eut quittée, une professeur de philosophie, passionnée par son métier et mère de deux grands enfants, décide de prendre un nouveau départ.

Et si vous regardez le code source :

               
 <div class="bloc_titre">Résumé</div>
 <div class="bloc_cnt tsj145bloctitre">
                    <p>Nathalie aime passionnément son métier de professeur de philosophie. Son but ? Donner les clefs à ses élèves pour qu'ils réfléchissent par eux-mêmes. Marié à un autre enseignant aux idées conservatrices et mère de deux enfants désormais grands, elle doit s'occuper de sa mère, un ancien mannequin qui n'a plus toute sa tête. Nathalie s'est embourgeoisée et n'adhère pas forcément aux idées libertaires de Fabien, qui fut son élève. Elle peine à continuer à publier des ouvrages, maltraités par le marketing. Quand son mari la quitte et que sa mère décède, elle décide de prendre un nouveau départ et part rejoindre pour quelques jours dans le Vercors où vit son protégé...</p>
 </div>

Le texte est presque identique "Si vous avez manqué le début" sauf la fin du texte.

Autre exemple, TF1 :
Sur la page :
Le résumé indique :

Darius Corrola, l'ancien interne, accuse Andrea d'avoir falsifié les données sur le Satonal. Lorenzo ne croit pas à cette version des faits, mais Marco le fait chanter : s'il parle, il dira à[....]

Le code source de la page :

 <div class="bloc_titre">Résumé</div>
    <div class="bloc_cnt tsj145bloctitre">
          <div class="cnt">Andrea rejoint Caroline pour lui dire qu'Agnès a été victime d'un malaise. A l'hôpital, Lorenzo tente de convaincre Andrea de ne pas s'occuper d'Agnès, mais celui-ci refuse. Lorenzo propose une solution à Marco pour éviter d'accuser Andrea dans l'affaire du Satonal et se heurte à un refus. Restée seule avec Agnès, Caroline lui demande de dire à l'équipe qu'elle a été en contact avec Darius. Agnès lui promet de révéler la vérité si ses hémocultures sont positives. Alba annonce à Ricardo qu'elle s'est inscrite au concours pour l'internat de chirurgie. Teresa réunit les troupes pour la course caritative. Elle demande à Elisa de dire à Gabriel de rapporter son contrat signé pour l'année suivante. Clara reçoit la visite de Lorenzo qui lui prodigue des conseils sur son traitement à venir...
           </div>
     </div>
 </div>

Auriez vous une explication ?
J'avais imaginé qu'il y aurait peut être des appels Ajax qui mettrait le texte de manière dynamique mais je n'ai rien vu de tout cela. sad

Hors ligne

#2 Le 25/02/2021, à 07:22

MicP

Re : [parsing] Texte différent entre le code source de la page et son rendu

Bonjour

Dans la page web,
la div de la classe content_left contient (entre autres) 2 div :
- celle dont l'id est bcsummary contient (entre autres) le texte affiché dans Résumé
- celle dont l'id est bcbeginning contient (entre autres) le texte affiché dans Si vous avez manqué le début

Dernière modification par MicP (Le 25/02/2021, à 07:36)

Hors ligne

#3 Le 25/02/2021, à 10:27

alex2423

Re : [parsing] Texte différent entre le code source de la page et son rendu

Tout à fait, nous avons ces 2 blocs :

<div class="bloc bloc_ficheDescription" id="bcsummary" xmlns="http://www.w3.org/1999/html">
    <div class="row">
        <div class="col-md-12">
            <div class="bloc_titre">Résumé</div>
            <div class="bloc_cnt tsj145bloctitre">
                <p>
                    Nathalie aime passionnément son métier de professeur de philosophie. Son but ? Donner les clefs à ses élèves pour qu'ils réfléchissent par eux-mêmes. Marié à un autre enseignant aux idées conservatrices et mère de deux
                    enfants désormais grands, elle doit s'occuper de sa mère, un ancien mannequin qui n'a plus toute sa tête. Nathalie s'est embourgeoisée et n'adhère pas forcément aux idées libertaires de Fabien, qui fut son élève. Elle
                    peine à continuer à publier des ouvrages, maltraités par le marketing. Quand son mari la quitte et que sa mère décède, elle décide de prendre un nouveau départ et part rejoindre pour quelques jours dans le Vercors où vit
                    son protégé...
                </p>
            </div>
        </div>
    </div>
</div>

<div class="bloc bloc_ficheMore" id="bcbeginning">
    <div class="row">
        <div class="col-md-12">
            <div class="bloc_titre">Si vous avez manqué le début</div>
            <div class="bloc_cnt tsj145bloctitre">
                <p>
                    Nathalie aime passionnément son métier de professeur de philosophie. Son but ? Donner les clefs à ses élèves pour qu'ils réfléchissent par eux-mêmes. Marié à un autre enseignant aux idées conservatrices et mère de deux
                    enfants désormais grands, elle doit s'occuper de sa mère, un ancien mannequin qui n'a plus toute sa tête. Nathalie s'est embourgeoisée et n'adhère pas forcément aux idées libertaires de Fabien, qui fut son élève. Elle
                    peine à continuer à publier des ouvrages, maltraités par le marketing. Quand son mari la quitte et que sa mère décède, elle décide de prendre un nouveau départ et part rejoindre son protégé dans le Vercors…
                </p>
            </div>
        </div>
    </div>

Pour le bloc Si vous avez manqué le début, nous retrouvons bien le texte entre la balise div dont l'id est bcbeginning

Par contre, on ne retrouve pas le texte du résumé dans le code source de la page :

Après que son mari l'eut quittée, une professeur de philosophie, passionnée par son métier et mère de deux grands enfants, décide de prendre un nouveau départ.

Hors ligne

#4 Le 25/02/2021, à 10:55

MicP

Re : [parsing] Texte différent entre le code source de la page et son rendu

Dans la page web,

/html/body/section/

<div class="bloc bloc_ficheDescription" id="bcsummary" xmlns="http://www.w3.org/1999/html">
   <div class="row">
      <div class="col-md-12">
         <div class="bloc_titre">
            Résumé
         </div>
         <div class="bloc_cnt tsj145bloctitre">
            <div class="cnt">
               Après que son mari l'eut quittée, une professeur de philosophie, passionnée par son métier et mère de deux grands enfants, décide de prendre un nouveau départ.
            </div>
         </div>
      </div>
   </div>
</div>

<div class="bloc bloc_ficheMore" id="bcbeginning">
   <div class="row">
      <div class="col-md-12">
         <div class="bloc_titre">
             Si vous avez manqué le début
         </div>
         <div class="bloc_cnt tsj145bloctitre">
            Nathalie aime passionnément son métier de professeur de philosophie. Son but ? Donner les clefs à ses élèves pour qu'ils réfléchissent par eux-mêmes. Marié à un autre enseignant aux idées conservatrices et mère de deux enfants désormais grands, elle doit s'occuper de sa mère, un ancien mannequin qui n'a plus toute sa tête. Nathalie s'est embourgeoisée et n'adhère pas forcément aux idées libertaires de Fabien, qui fut son élève. Elle peine à continuer à publier des ouvrages, maltraités par le marketing. Quand son mari la quitte et que sa mère décède, elle décide de prendre un nouveau départ et part rejoindre son protégé dans le Vercors…
         </div>
      </div>
   </div>
</div>

Dernière modification par MicP (Le 26/02/2021, à 18:16)

Hors ligne

#5 Le 25/02/2021, à 10:57

alex2423

Re : [parsing] Texte différent entre le code source de la page et son rendu

Autre exemple pour ce soir, Envoyé Spécial :
https://www.programme-television.org/ma … #968742537

Sur la page de rendu (récupéré à l'aide du module de développement de Firefox) :
1614244348.png

<div class="col-md-12">
    <div class="bloc_titre">Résumé</div>
    <div class="bloc_cnt tsj145bloctitre">
        <div class="ctnt"></div>
        <h4>Isolation : des chantiers risqués ?</h4>
        <br />
        <div class="cnt"></div>
        <h4>La nouvelle vie de Stella et Alex</h4>
        <br />
        <div class="cnt"></div>
        <h4>Navalny, le survivant</h4>
        <br />
        <div class="cnt"></div>
    </div>
</div>

Et dans le code source :

<div class="col-md-12">
    <div class="bloc_titre">Résumé</div>
    <div class="bloc_cnt tsj145bloctitre">
        <div class="ctnt"></div>
        <h4>Expropriés, l'engrenage infernal</h4>
        <br />
        <div class="cnt"></div>
        <h4>Coronavirus, le mystère des origines</h4>
        <br />
        <div class="cnt"></div>
    </div>
</div>

Dernière modification par alex2423 (Le 25/02/2021, à 11:24)

Hors ligne

#6 Le 25/02/2021, à 11:25

MicP

Re : [parsing] Texte différent entre le code source de la page et son rendu

Deux pages différentes :

Le premier bloc est extrait de la page web : https://www.programme-television.org/ma … #968742537

Le deuxième bloc est extrait de la page web : https://www.programme-television.org/ma … ye-special

Dernière modification par MicP (Le 25/02/2021, à 11:29)

Hors ligne