日本郵便の郵便番号データを解析してみる 第3回~カンマなどの区切り文字編~

my-hobby : 日本郵便の郵便番号データを解析してみる 第2回~括弧の意味編~に続き、今回紹介するのは「、」カンマなどについてです。
第2回でも紹介しましたが、郵便番号データの町域名の以下の様な郵便番号データがそれに該当します。(赤字部分)

01224,”066 “,”0660005″,”ホッカイドウ”,”チトセシ”,”キョウワ(88-2、271-10、343-2、404-1、427-3、431-12、443-6、608-2、641-8、814、842-5、1137-3、1392、1657、1752バンチ)”,”北海道”,”千歳市”,”協和(88-2、271-10、343-2、404-1、427-3、431-12、443-6、608-2、641-8、814、842-5、1137-3、1392、1657、1752番地)“,1,0,0,0,0,0

※2010/2/26時点の郵便番号データより(以下同様)

カンマについては第2回でも紹介したように、複数の文字(住所)を区切る為の情報として使われている事が分かりました。

しかしカンマだけが区切り文字と思いきや、郵便番号データの「クセ」はそんな甘いものではありませんでした。
自分が調べた限りでは、以下の3つの文字が区切り記号らしきものとして、郵便番号に実在していました。
——————-


及び


——————-
これらの文字を区切り文字と判断する事が出来れば、システム的に文字を分割する事が可能になります。
そこで上記3つの文字が、区切り文字として使用できるのか調べてみました。
最初の「、」カンマは区切り文字の一部としてのみ使用されてる可能性が高いと判断できますが、2番目の「及び」は厳しいです。。。
仮に「及び町」みたいな地名が実在したとすると、区切り文字としては判断できません。
とりあえず2010/2/26時点の郵便番号データに対して、町域名に「及び」という文字がどれだけ使われているかをチェックしてみました。
チェックした結果は以下の通りです。

09206,”32126″,”3212613″,”トチギケン”,”ニッコウシ”,”フジハラ(1047-1268オヨビシモタイラ)”,”栃木県”,”日光市”,”藤原(1047~1268及び下平)“,1,0,0,0,0,0
25202,”52202″,”5220239″,”シガケン”,”ヒコネシ”,”ウオチョウ(897バンチオヨビナカジマ505-518バンチ)”,”滋賀県”,”彦根市”,”宇尾町(897番地及び中島505~518番地)“,1,0,0,0,0,0

該当するのは上記の2件だけでした。
先ほどの懸念事項を踏まえると、1件目の「1268及び下平」、「897番地及び中島505」が実在する住所では無く、かつ「1268」、「下平」、「897番地」、「中島505」が実在する住所である事が証明できれば、ここで使われている「及び」という文字は、カンマと同じ意味である事が分かります。
例によって住所情報を提供している全国の場所検索トップ – 地図-ルート検索|いつもNAVIにて調べた結果、上記の2件とも実在しない住所である事が分かりました。

ちなみに、「1268、下平」「897番地、中島505」とし、それぞれ2件の住所に分けた場合、「下平」、「中島505」以外の住所は実在しました。
栃木県日光市藤原1268の場所検索 – 地図-ルート検索|いつもNAVI
滋賀県彦根市宇尾町897の場所検索 – 地図-ルート検索|いつもNAVI

ここで「下平」、「中島505」の2件はなぜ住所が存在しないのかが気になります。
とりあえず、「滋賀県彦根市宇尾町中島」と「栃木県日光市藤原下平」という文字をそれぞれGoogleで検索すると、それらしい住所がヒットしました。

この結果からすると全国の場所検索トップ – 地図-ルート検索|いつもNAVIにおいても全ての住所が登録されていない可能性があると考えられます。

日本の住所はいったい誰が決めて、どの様な経路で情報が伝わっているのか疑問が湧きます。。。
とりあえずこの2件については、これ以上は調べようが無いので、ここまでとします。

結果として「及び」を区切り文字として定義する為には、今後「及び」という文字を含む町域名が今後出てこない事を祈るしか無いですねw。。。

そして最後の「・」。これも一見カンマと同じ様に、住所の一部では無いと思われがちですが、ここに落とし穴があります。
実は以下のケースの様に、住所の一部に「・」が使われているケースが存在します。

13103,”107 “,”1076201″,”トウキョウト”,”ミナトク”,”アカサカミッドタウン・タワー(1カイ)”,”東京都”,”港区”,”赤坂ミッドタウン・タワー(1階)“,0,0,0,0,0,0

※「東京ミッドタウン・タワー」の「・」の部分です。

これは厳しい。。。
「・」の文字を区切り文字として扱ってしまうと、
「赤坂ミッドタウン」、「タワー」の2つの住所に分割されてしまいます。

ちなみに以下のケースは、「・」の使い方がカンマと同じ扱いのようです。
愛媛県伊予市中山町出渕の場所検索 – 地図-ルート検索|いつもNAVIで確認済み。

38210,”79132″,”7913203″,”エヒメケン”,”イヨシ”,”ナカヤマチョウイズブチ(トヨオカ・ヒガシマチ)”,”愛媛県”,”伊予市”,”中山町出渕(豊岡・東町)“,1,0,0,0,0,0

結果として、「、」「及び」「・」の3つの文字に関しては、現時点では下記の様に結論付けたいと思います。

「、」 : ほぼ区切り文字として特定できそう。
「及び」 : 現時点(2010/2/26時点)では、区切り文字として特定できそうだが、今後変わってくる可能性がある。
「・」 : 区切り文字と、そうでない場合の2パターンが あり、明確な特定方法は解っていない。住所データを洗い替えるような場合には、精度を求めるなら人の目でチェックするという運用が必要になる。

ちなみに現時点(2010/2/26時点)では、下記の住所が「・」を住所の一部として使っているのが確認出来ています。
東京都港区赤坂赤坂アークヒルズ・アーク森ビル
東京都港区赤坂ミッドタウン・タワー
静岡県湖西市新所・岡崎・梅田入会地
※一見「静岡県湖西市新所・岡崎・梅田入会地」で使用されている「・」は、区切り文字じゃないの?と思うかも知れませんが、実在する住所です。
静岡県湖西市新所・岡崎・梅田入会地の場所検索 – 地図-ルート検索|いつもNAVI
日本の住所は奥が深いです。。。

上記のケースを考慮した結果は、郵便番号検索 -zipnavi-にて実際に確認できます。

カテゴリー: flashcast, zipnavi, 郵便番号検索 パーマリンク

日本郵便の郵便番号データを解析してみる 第3回~カンマなどの区切り文字編~ への1件のフィードバック

  1. ピンバック: my-hobby : 日本郵便の郵便番号データを解析してみる 第4回~範囲の指定編~

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です