[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: Correct? Display Horizontal Ellipsis on UTF-8 env



飛田です。

>>>>> In [emacs-w3m : No.09345] 
>>>>>	Shinichiro HIDA <shinichiro@xxxxxxxxxxxxx> wrote:

[...]

> > Debianパッケージlanguage-env, mule-ucsに
> > utf-translate-cjk-set-unicode-rangeの設定例が含まれています。

> たっ..大変失礼致しました。_o_

> ;; emacs-snapshot のマシンは、大昔に set-language-env したっきりのマシ
> ;; ンだったもので。/etc 以下だけ見て /usr/share 以下を見てなかったのも
> ;; 敗因です。^^;; 申し訳ありません。

> /usr/share/language-env/ja/dot.emacs.pl に

>       (when (fboundp 'utf-translate-cjk-set-unicode-range) ;; for Emacs 22.x
>         (utf-translate-cjk-set-unicode-range
> 	   [...]
>            (#xff00 . #xffef))))
	   
> という部分があるのを確認しました。

この部分の utf-translate-cjk-set-unicode-range の設定を抜き出して、手元
の Debian Etch (ja_JP.UTF-8 locale) 上にソースからコンパイルした素の
Emacs22 (without mule-ucs) で使っているのですが、これだと、まだ一部、変
に見える事がある事に気づきました。

先日、wl-en にながれた UTF-8 なメールで、英語キーボードの "L" の右 2つ
隣のいわゆるシングルクォート ['] が [’] と表示されたり、そのまま [']
だったりと混在してしまうケースがありました。

これ、Apostrophe (U+0027) と Right Single Quotation Mark (U+2019) が文
字列の繋がりからか区別されて表示されるようです。

おそらく、unicode.org の Apostrophe の項目に、 "2019 ’ is preferred
for apostrophe" という部分があり、これに従ったものだと思われますが、こ
の 2019 が FullWidth で表示されるので、いかにも変に見えます。

"cannot" の省略形が "can’t" に見えるのです。これ、"can't" に見えて欲し
いですよね?

;; 個人的には字面を見る限り、 U+2019 じゃなくって U+02BC じゃないのか
;; なぁ、という気がするのですが.. 良く分かりません..

で、これを避けるには Debian の sid にある language-env の設定からこの
U+2018 と U+2019 を引いてやると良いので、現在、手元では、

-  (#x0400 . #x04ff) (#x2000 . #x206f) (#x2100 . #x214f)
+  (#x0400 . #x04ff) (#x2000 . #x2017) (#x201A . #x206f)
+  (#x2100 . #x214f)

にして使っています。

;; 他にもありそうな気がしますが、調べてません。_o_

このあたりの事を先の URI
 http://www.stained-g.net/shinichiro/EUC-JP-Horizontal-Ellipsis.html に
追加してみました。

;; emacs-w3m だと画像以外の該当文字の表示にこの設定の影響がでる模様です。

-- 
  Shinichiro HIDA  shinichiro@xxxxxxxxxxxxx
  GPG fingerprint = 5F2D 1656 FFF6 F691 A51C  5E61 E416 D398 470C 1CE9