Datenschutzerklärung

Erlaubte Werte für das lang-Attribut

Validome - Forum

Startseite Validome
RSS 2.0  
Sie sind nicht angemeldet. Atom 1.0  
Forum Home / Bug-Reports / Fehlermeldungen /

Erlaubte Werte für das lang-Attribut

  Beitrag schreiben
Autor
Beitrag Seiten: 1
Gernot Katzer
Mitglied

Registriert: 18.03.2006
Beiträge: 8
Validome checkt auch den Inhalt des lang-Attributs, offenbar
durch Vergleich mit den ISO639-Sprachodes. Das ist grundsätzlich
sehr positiv, denn ich habe  für Schwedisch (sv) schon zahllose
Male gedankenlos se geschrieben. Schön, daß das wem auffällt.

Allerdings ist ISO639 hier nicht der Weisheit letzter Schluß. Es
gibt erweiterte Standards ISO639-1 bis ISO639-3, und ich kann
jetzt eigentlich nicht erkennen, warum die Verwendung dieser
Codes illegal sein sollte.

Beispiele: Einige two-letter-codes, die im ursprünglichen
ISO639 nicht enthalten waren, z.B. ii fuer Yi (Nuosu).
Der Bezeichner x für Eigenbau, z.B. x-klingonisch.
Die dreibuchsabigen Codes von ISO639-2, z.B. grc für
Altgriechisch.

Soweit ich das sehe, akzeptiert Validome nichts von alledem.
RFC 3066 beschreibt die Sprachauszeichnung mittels
lang-Attribut und ersetzt RFC 3166, der nur die zweibuchstabigen
Codes zuließ. http://www.ietf.org/rfc/rfc3066.txt

Die folgende Beispielseite ist valide bis auf die bemängelten
Sprachbezeichnungen:
http://www.uni-graz.at/~katzer/germ/Zing_off.html
Validierungsergebnisse:
http://www.validome.org/lang/en/get/http://www.uni-graz.at/~katzer/germ/Zing_off.html
http://www.validome.org/lang/ge/get/http://www.uni-graz.at/~katzer/germ/Zing_off.html

Drei weitere Anmerkungen:

Das UTF8 in den beanstandeten Zeilen wird nach Latin-1 verstuemmelt.

Validiert man mit dem englischen Interface, dann treten viele interne
Fehlermeldungen auf:
Warning: constant(): Couldn't find constant ILLEGAL_LANG_VALUE_v4 in /server_path/validome/error.php on line 294

Und wenn man die deutsche Seite des Validators aufruft, dann wird ploetzlich
ein Fehler in meiner Custom-DTD aufgefuehrt, den ich nicht nachvollziehen kann:
Die Deklaration für Entity "ContentType" muss mit '>' enden.
Meiner Meinung nach tut sie das auch:
<!ENTITY % ContentTypes "CDATA"
    -- comma-separated list of media types, as per [RFC2045]
    -->
Der Abschnitt ist von der offiziellen HTML401-Transitional-DTD wörtlich übernommen.

Vor ein paar Tagen validierte die Seite noch anstandslos. Ich vermute,
daß da ein paar Verbesserungen der Software zurückschlagen. ;-)


18.03.2006 01:02:26
eMail Zitieren
Validome
Administrator

Registriert: 04.04.2005
Beiträge: 313
Hallo,
zunächst einmal vielen Dank für die Hinweise.
Wir haben die Languageliste aktualisiert (ist nun über 30KB groß), es wird aber weiterhin "zh-HK" als Fehler gemeldet, da wir nirgends "HK" finden konnten. Haben wir diesen Code übersehen, oder liegt der Fehler bei Ihnen?

>> Ich vermute, daß da ein paar Verbesserungen der Software zurückschlagen. ;-)
Richtig vermutet, die Fehler sind bereits behoben ;-)

Mit freundlichen Grüßen
Thomas Mell


18.03.2006 21:05:57
  Zitieren
Gernot Katzer
Mitglied

Registriert: 18.03.2006
Beiträge: 8
> Wir haben die Languageliste aktualisiert (ist nun über 30KB groß),

Ihre Response-Zeiten sind immer wieder unglaublich. Ich hoffe, Sie
hatten trotzdem einen netten Samstag.

> es wird aber weiterhin "zh-HK" als Fehler gemeldet, da wir
> nirgends "HK" finden konnten. Haben wir diesen Code
> übersehen, oder liegt der Fehler bei Ihnen?

HK ist ein ISO3166-konformer country code, so wie DE oder CN.
Er bedeutet "Hong Kong". Soviel ich weiss, ist jede beliebige
Kombination aus ISO639-Sprachcode und ISO3166-Ländercode
zulässig, also auch "zh-HK".

http://userpage.chemie.fu-berlin.de/diverse/doc/ISO_3166.html

Die Bezeichnung "zh-HK" sollte eigentlich "Chinesisch so wie
gesprochen in Hongkong" bedeuten, wird aber im Netz häufig
etwas zweckentfremdet für "Kantonesisch" verwendet. Kantonesisch
ist eine chinesische Sprache, die im Südosten verbreitet ist --
außer in Hongkong auch Kanton (Guangzhou) und Macau.

Leider gibt es für Kantonesisch keinen ordentlichen ISO639-Code.
Ich vermute politische Gründe -- die Regierung in Beijing legt
großen Wert auf die sprachliche Einheit des Landes. Deshalb muß
man auch offiziell von "Dialekten" sprechen, auch wenn es sich
eigentlich um gegenseitig unverständliche Sprachen handelt.
Ein IANA-registrierter Name fuer Kantonesisch ist zh-yue, aber
der wird von Browsern zur Zeit nicht richtig unterstützt.

<SPAN lang="zh-HK">Hong-kong</SPAN> ist übrigens selbst kantonesisch
und wird im Hochchinesischen als <SPAN lang="zh">xiang-gang</SPAN>
ausgesprochen; die Schreibung lautet in beiden Fällen &#39321;&#28207;. Der Name
bedeutet "duftender Hafen" oder "Gewürzhafen".

http://userpage.chemie.fu-berlin.de/diverse/doc/ISO_3166.html


18.03.2006 22:01:13
eMail Zitieren
Gernot Katzer
Mitglied

Registriert: 18.03.2006
Beiträge: 8
Nach ein paar weiteren Tests habe ich festgestellt, daß Ihnen einige der
IANA-registrierten Sprachen von http://www.iana.org/assignments/language-tags
noch fehlen, z.B. zh-guoyu und zh-cmn für Mandarin oder zh-Hant für
Chinesisch in traditionellen Zeichen. Die vollständige Liste ist relativ kurz:
http://www.iana.org/assignments/language-tags

Auch nzi (für die afrikanische Sprache Nzema) fehlt; sie ist in ISO-639-2
definiert. http://www.loc.gov/standards/iso639-2/englangn.html
Alle anderen der auf meinen Seiten verwendeten 142 Sprachcodes
laufen jetzt aber korrekt durch.


Zuletzt nochein Punkt, bei dem ich mir selbst nicht sicher bin: Sprachcodes,
die mit x- beginnen, stellen eine Art privaten Namespace ohne Garantie auf
Interoperabilität dar. RFC3066 schreibt dazu:
    The value "x" is reserved for private use. 
    Subtags of "x" shall not be registered by the IANA.
http://www.ietf.org/rfc/rfc3066.txt

So wie ich das verstehe, ist daher jede mit x beginnende
Sprachauszeichnung wie z.B. x-elbisch prinzipiell valide,
wenngleich semantisch nicht definiert. Ob man sowas in HTML
verwenden soll, steht natürlich auf einem anderen Blatt. Einerseits
ist diese Sprachauszeichnung für den Rest der Welt möglicherweise
bedeutungslos, andererseits kann man sie per :lang-Pseudoklasse
zum Formatieren nutzen, was sich mit class-Attributen nur schwer
nachbilden läßt. Zur Zeit werden solche Konstruktionen von Validome
nicht akzeptiert. Hier könnte man vielleicht etwas liberaler sein.

Ja, das mit den Sprachen ist ein Faß ohne Boden... Trotzdem bin
ich sehr zufrieden, daß Sie sich mit Validome auf dieses schwierige
Feld vorwagen.


18.03.2006 23:50:36
eMail Zitieren
Validome
Administrator

Registriert: 04.04.2005
Beiträge: 313
Hallo,
die Liste ist nun nochmals aktualisiert worden.
Weiterhin ist jetzt alles mit "x-" am Anfang erlaubt.
Ich hoffe, dass soweit alles richtig funktioniert ;-)

mfg
Thomas Mell


19.03.2006 02:55:59
  Zitieren
Gernot Katzer
Mitglied

Registriert: 18.03.2006
Beiträge: 8
> Ich hoffe, dass soweit alles richtig funktioniert ;-)

Jepp. Herzlichen Dank.
Ich habe nun wieder 200 blütenweiße Seiten.


19.03.2006 13:41:51
eMail Zitieren
Seiten: 1   Beitrag schreiben
Wechsel zu

Die letzten Beiträge aus diesen Forum

Valid HTML 4.01