התיקון הלקוי של בעיית הקידוד באתר עיתון "הארץ"

עידו קינן מדווח על תיקון באג הכותר השגוי ששרת האינטרנט של "הארץ" שולח, וגורם בכך לתצוגה משובשת בדפדפנים תקניים, כגון פיירפוקס וספארי.

בדיקה מהירה מראה שהדפדפנים עדיין מסתבכים עם השרת. בדיקה קצת יותר מעמיקה של הכותרים מראה גם מדוע:

Content-Language: he
Content-Language: he
Content-Type: text/html; charset="csISOLatinHebrew"
Content-Type: text/html; charset=windows-1255

כן, קראתם נכון. במקום להחליף את הכותר הבעייתי (הראשון) בכותר תקין, מישהו ב"הארץ" הוסיף את הכותר התקין מבלי להסיר את השגוי. אולי הוא חשב ש"הרוב קובע"- אם בכותר יש שני כותרים סותרים, ובדף ה-HTML עצמו יש כותר נוסף התואם לאחד מהכותרים הסותרים, אז אולי הדפדפן ילך לפי הרוב… מה חבל שהתקן מגדיר בפירוש שהכותר הקובע הוא זה הנשלח מהשרת, ושהוא דורס את מה שמוגדר בדף. ולא, אין הגדרה מה הדפדפן צריך לעשות במקרה שהשרת שולח שני כותרים סותרים, כמו שהוא עושה כרגע. אם זה לא היה כל כך עצוב זה היה מצחיק.

פורסם במקור בבלוג של שושנה פורבס – XSLF

5 תגובות על הפוסט “התיקון הלקוי של בעיית הקידוד באתר עיתון "הארץ"

  1. האתר ששושנה קישרה אליו מראה גם את תוכן תכי המטא כאילו היו כותרות HTTP, ומכאן הכפילות. להלן כותרות ה־HTTP המקוריות שנשלחות, כפי שאני רואה באמצעות ההרחבה Live HTTP Headers:

    HTTP/1.x 200 OK
    Age: 1
    Transfer-Encoding: chunked
    Date: Sun, 07 May 2006 18:29:24 GMT
    Content-Type: text/html; charset="csISOLatinHebrew"
    Cache-Control: max-age=60
    Connection: close
    Server: Haaretz
    Via: 1.1 tm-grm-ne02 (NetCache NetApp/5.5R3)

    במילים אחרות, שום דבר לא תוקן. "הארץ" ממשיכים לשלוח את הקידוד השגוי, ורק אותו, בכותרות ה־HTTP.

  2. אורי, אני חושב שאתה טועה. הכותרים עדיין נשלחים בצורה שגוייה. אתה לא רואה את הכותרים השגויים כי אתה רואה אותם מנקודת המבט של הדפדפן; הכותרים המוצגים הם כפי שהדפדפן מזהה אותם, ולכן העברית מתהפכת.

    לאחרונה אני רואה את הדף הראשי אצלם בצורה תקינה. בדקתי עם תוכנת שורת־פקודה כדי לוודא ששום אתר או תוכנה לא מזייף את הכותרים, והנה התשובה.

    Server: Haaretz
    Content-Language: he
    Content-Length: 31810
    Content-Type: text/html
    Content-Type: text/html; charset=windows-1255

    לדעתי הם משחקים עם הכותרים ובודקים את השפעתם. אמנם זה עדיין לא אידיאלי, אבל זה לפחות מתפקד בלי הרחבה.אגב, לא ניסיתי, אבל לדעתי אפשר לפתור את הבעיה שלהם גם ללא ההרחבה של אפי. צריך לשנות שורה אחת ב־charsetalias.properties.

  3. תומר,
    הדף הראשי, וכן חלק מהידיעות (אלו שתחת ‎/hasite/spages) נראו בסדר מאז ומעולם (ככל שאני זוכר). הבעיה היתה, ועודנה, עם ידיעות תחת ‎/hasite/pages, שעבורן נשלחת הכותרת השגויה.

    וידאתי שאני מקבל את הכותרות שציטטתי לעיל גם כשאני משתמש ב־curl, כך שאין כאן בעיה של הדפדפן. נסה למשל את הכתובת הבאה בתוכנת שורת־הפקודה שלך:
    http://www.haaretz.co.il/hasite/pages/ShArt.jhtml?itemNo=713181&contrassID=5&subContrassID=0&sbSubContrassID=0
    (זאת ידיעה חדשה מהיום).

    ייתכן שיש כיום קצת יותר ידיעות ב־spages (ולא ב־pages) משהיו בעבר, וזה מקור השמועה על התיקון כביכול. מלבד זאת אני לא רואה שום שינוי.

    אני מניח שהתחכמות עם ה־charsetalias.properties תעבוד, אבל היא כמובן תשבור אתרים שבאמת מקודדים ויזואלית ומצהירים על הקידוד שלהם כ־”csISOLatinHebrew“. יכול להיות שזו רק בעיה תאורטית, אבל נראה לי שכבר עדיף להשתמש בהרחבה.

  4. אורי: אתה לא רואה שם כפילות כותרים? כי אני כן.
    Content-Type: text/html; charset="csISOLatinHebrew"
    Content-Type: text/html; charset=windows-1255

    לקחתי שני דפים באתר, אחד עם pages ואחד עם spages. מתברר כי למעשה

    הדפים שבדקתי:

    תוצאות:

      • דפי "hasite/spages" תקינים מבחינת הכותרים.
      • דפי "pages" – לא.
      • ניתן להיכנס לדפי spages דרך pages; הפרמטר בשניהם זהה.
      • לא ניתן להיכנס לדפי pages דרך spages, ומתקבלת שגיאת 404.
      • אם "יקמפלו" את הדפים לעמודים סטטיים של spages, בעית הקידוד תיעלם.
      1. בדקתי שוב (בדף אחר) ואין שום כפילויות בכותרות (שאני מתעקש לקרוא להן "כותרות" ולא "כותרים").
        באיזו תוכנה / אמצעי אתה משתמש? ייתכן, שכמו האתר ששושנה השתמשה בו, התוכנה שלך מסתכלת בתגי META ומציגה אותם כאילו היו כותרות HTTP?

        "הארץ" יכולים לפתור את הבעיה ע"י קימפול כל העמודים לדפים סטטיים. מצד שני, הם יכולים גם לפתור את הבעיה ע"י זה שהם יתקנו את הכותרת המ***ת. נראה לי שהשיטה השניה יותר קלה.
        בכל מקרה, ההרגשה שלי היא שהם לא פותרים את הבעיה לא כי הם לא יודעים איך, אלא פשוט כי לא מזיז להם. אחרת קשה להבין איך על כחמישה אי-מיילים, ששלחתי לכתובות שונות ב"הארץ", ושבכולם תיארתי את הבעיה בדיוק, לא זכיתי אפילו לקבל תשובה מנומסת אחת בסגנון "קיבלנו את פנייתך".

      כתיבת תגובה

      האימייל לא יוצג באתר. (*) שדות חובה מסומנים

      תגי HTML מותרים: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>