このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

Unicodeの記号文字についてもう少し

昨日の記事「数学記号とか特殊な文字のUnicode」で、Unicodeの記号文字をリストしました。気になる点や追加情報を書きます。

論理否定記号の文字は2種類あります。

  1. U+00AC 'NOT SIGN'
  2. U+FFE2 'FULLWIDTH NOT SIGN'

半角文字と全角文字です。Unicodeの本来の思想「全世界の文字を統合(unify)する」からすると、半角・全角も統合して重複は避けたかったでしょうが、諸般の事情から半角・全角を残さざるを得なかったのでしょう。

以前、否定記号が2種類あることがトラブルの原因だったことがあります(ココラの話)。半角・全角で重複している文字は、コード範囲FF00-FFEFの"Halfwidth and Fullwidth Forms"ブロックに集められています。

見渡したところ、否定以外の論理記号は入ってないようです。検索ツールなどでは、全角・半角の違いを無視して検索したほうが望ましいと思います。とはいえ、人間の目視では同じに見える文字は大量にあるので、「何を同じとみなすか?」は大変に難しい問題です。

文字一覧表は、Unicode.orgがご本家ではありますが、グリフをザッと見たいなら、次のページが便利です。

ページ上部のロゴが「フレメ」にしか見えないので、日本企業のページかと思ったら、カナダ・トロントの会社が提供してるようです。

あと、論理記号の文字に関しては次にまとめられています。

昨日挙げた記号のたぐいは、否定記号を除けば、次の2つのブロックにあります。

  1. 2100-214F Letterlike Symbols
  2. 2200-22FF Mathematical Operators

一覧を見てもらえば分かりますが(http://jrgraphix.net/r/Unicode/2100-214F)、"Letterlike Symbols"は混沌としています。名前からして「文字みたいな記号」って、うまく分類できないヤツをかき集めて押し込んだ感じ。黒板文字(白抜き太字)も"Letterlike Symbols"にありますが、ラテン文字がすべて揃っているわけではありません。

2300-23FF "Miscellaneous Technical"ブロック(http://jrgraphix.net/r/Unicode/2300-23FF)にも雑多な記号が集められています。U+2300は空集合(U+2205 EMPTY SET)と同じだと思ったら'DIAMETER SIGN'(直径を表すファイ)だそうで。U+237Aはアルファ(α)にしか見えないのだけど、実際アルファなんですが、'APL FUNCTIONAL SYMBOL ALPHA' … って、あのAPLかい!?

人間には区別困難な類似形状のグリフがコード空間に散在してるし、空白文字がイッパイあったり、コードポイントに“色”がエンコードされてたりもして(「プレーンテキストだけで色付きマーク」参照)、いやはやもう。Unicodeテキストから、賢くあいまい検索するのはとてもとても大変だな―、と思います。