search

Found

info 概要

文字とUnicodeコードポイント(U+XXXX)を双方向に変換。各文字のコードポイント・UTF-8/UTF-16のバイト列・文字名・所属するブロックを一覧で表示

📘 使い方

  1. 「文字 → コードポイント」か「コードポイント → 文字」を選ぶ
  2. 文字を貼り付ける、または U+XXXX 形式でコードポイントを入力する
  3. 表でコードポイント・UTF-8/UTF-16 バイト列・文字名・ブロックを確認する

Unicode コードポイント検索

複数の文字を入力すると一覧表示されます

0

結果がここに表示されます

コピーしました!
Article

Unicode コードポイント検索|文字とU+を相互変換しバイト列まで一覧

文字を貼り付ければ各文字の Unicode コードポイント(U+XXXX)が分かり、逆に U+ 記法を入力すれば元の文字に戻せます。コードポイントだけでなく、UTF-8 と UTF-16 のバイト列・文字名・所属する Unicode ブロックまで一度に表で確認できます。

💡 文字化けや見えない文字の正体を突き止める

「同じに見える文字なのに検索やパスワード照合で一致しない」「JSON や URL に紛れた謎の記号が消せない」——こうした原因の多くは、見た目が同じでもコードポイントが違う文字や、目に見えない制御文字・ゼロ幅文字です。このツールに対象の文字列を貼り付ければ、1 文字ずつコードポイントへ分解され、どこに想定外の文字が混ざっているかが一覧で見えます。

逆方向も同じ表で扱えます。仕様書やバグ報告に「U+200B」「U+FEFF」のように書かれたコードポイントを入力すると、それが実際にどの文字なのかを復元して確認できます。UTF-8 のバイト列を併記するので、バイナリダンプやネットワークログに現れた E2 80 8B のような並びと突き合わせる作業にも向いています。絵文字や CJK 漢字のように 1 文字が複数バイト・サロゲートペアになるケースも、UTF-16 列でそのまま追えます。

🧐 よくある質問

Q. 複数の文字を一度に調べられますか? はい。文字列を貼り付けると 1 文字ずつ行に分かれて表示されます。コードポイント側の入力では、スペースやカンマで区切って U+3042 U+0041 のように複数まとめて入力できます。

Q. コードポイントの入力形式は何に対応していますか? U+30420x30423042(16 進数のみ)のいずれの形でも解釈します。先頭の U+0x は付けても付けなくても構いません。

Q. 絵文字や U+10000 以上の文字も扱えますか? 扱えます。基本多言語面(U+FFFF まで)を超える文字は UTF-8 で 4 バイト、UTF-16 ではサロゲートペア(2 つの符号単位)として表示されます。表の UTF-16 列で上位・下位サロゲートを確認できます。

Q. 表示される文字名は公式の Unicode 名称ですか? よく使う範囲(英数字・かな・カナ・CJK・絵文字など)については代表的な名称を表示します。全コードポイントの正式名称データベースを内蔵しているわけではないため、名称が「—」になる文字もあります。コードポイントとバイト列は全範囲で正確です。

📚 コードポイントとエンコーディングは別物

Unicode の「コードポイント」は文字に振られた番号そのもので、UTF-8 や UTF-16 はその番号をバイトとして保存する方式です。同じ U+3042(あ)でも、UTF-8 では 3 バイト、UTF-16 では 2 バイトと、エンコーディング次第で並びが変わります。この区別が曖昧だと「文字数とバイト数が合わない」「DB のカラム長が足りない」といった混乱が起きます。

特に UTF-8 は ASCII(U+0000〜U+007F)を 1 バイトのまま保てる設計のため、英語中心の文字列では 1 文字 = 1 バイトに見えますが、日本語や絵文字が混ざると 1 文字が 3〜4 バイトに膨らみます。画面上は同じ大きさに見える 1 文字が、メモリ上では UTF-8 で 4 バイト・UTF-16 で 2 符号単位を占めることもある、というギャップを目で確かめられるのがこのツールの使いどころです。