日本郵便の郵便番号データを解析してみる 第4回~範囲の指定編~

本シリーズの第2回第3回で括弧と、区切り文字のパターンが何となくですが解析できました。
しかし、まだまだ手ごわいクセがあります。
それは丁目などを範囲指定したケースです。具体的には以下の様なデータです。

01101,”060 “,”0600042″,”ホッカイドウ”,”サッポロシチュウオウク”,”オオドオリニシ(1-19チョウメ)”,”北海道”,”札幌市中央区”,”大通西(1~19丁目)“,1,0,1,0,0,0
01101,”064 “,”0640820″,”ホッカイドウ”,”サッポロシチュウオウク”,”オオドオリニシ(20-28チョウメ)”,”北海道”,”札幌市中央区”,”大通西(20~28丁目)“,1,0,1,0,0,0

※2010/2/26時点の郵便番号データより(以下同様)

これは同じ町域でも、丁目によって郵便番号が違うケースです。

0600042:北海道札幌市中央区大通西(1~19丁目)
0640820:北海道札幌市中央区大通西(20~28丁目)

この様なケースは「~」を基準として、前後の数値を取れば範囲として定義出来そうな気がします。

ただ、過去の記事を見てくると、これだけで収まりそうな気配はありません。
そうです!ここにもまたシステム屋を悩ます厄介な「クセ」が隠れています。
それは以下の様なケースです。

19442,”40902″,”4090211″,”ヤマナシケン”,”キタツルグンコスゲムラ”,”コスゲムラ(664イジョウ)”,”山梨県”,”北都留郡小菅村”,”小菅村(664以上)“,1,0,0,0,0,0
30208,”64964″,”6496413″,”ワカヤマケン”,”キノカワシ”,”タケブサ(450バンチイカ)”,”和歌山県”,”紀の川市”,”竹房(450番地以下)“,1,0,0,0,0,0
10425,”37716″,”3771512″,”グンマケン”,”アガツマグンツマゴイムラ”,”オオマエ(ホソハラ2259-)”,”群馬県”,”吾妻郡嬬恋村”,”大前(細原2259~)“,1,1,0,0,0,0

まあ人間の目で見れば内容は理解出来なくは無いですが、結構手強いですね。。。
上記の内容から「以上」「以下」も範囲指定の文字として扱わなければいけないという事になります。
また、「大前(細原2259~)」については、「~」の後ろがありませんが、「大前(細原2259以上)」と同じ意味としてとらえる事が出来そうです。

「~」については、実在する住所の一部として使われている事はほぼ皆無といえます。
となると、やはり注意すべきは、「以上」「以下」が実在する住所の名称として存在するか否かですが、案の定そういうケースがありました。

42201,”85105″,”8510502″,”ナガサキケン”,”ナガサキシ”,”イガヤドマチ”,”長崎県”,”長崎市”,”以下宿町“,0,0,0,0,0,0

※「長崎県長崎市以下宿町」は実在する住所です。
長崎県長崎市以下宿町の場所検索 – 地図-ルート検索|いつもNAVI

自分が調べた限り今回のケースで言うと、範囲を指定する文字は「~」、「以上」、「以下」の様なパターンが存在する事が分かり、それぞれの文字については現時点では以下の様に結論付けたいと思います。

~:ほぼ範囲指定の文字として特定できそう。ただし前後の数値が無い場合があるので扱いには注意が必要。
以上:現時点(2010/2/26時点)では、範囲指定の文字として特定できそうだが、今後変わってくる可能性がある。
以下:範囲指定の文字と、そうでない場合の2パターンが あり、明確な特定方法は解っていない。住所データを洗い替えるような場合には、精度を求めるなら人の目でチェックするという運用が必要になる。

上記のケースを考慮した結果は、郵便番号検索 -zipnavi-にて実際に確認できます。

カテゴリー: flashcast, zipnavi, 郵便番号検索 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です