年内にルール、10年かけて整備
2020年9月13日の日経に、政府が個人の名前や地名、電話番号、年月日などに使う漢字の表記、データの形式について、2020年度中に統一ルールを作るという記事がありました。実際のシステムは各省庁のシステム更新時期に合わせるので、10年かけての整備となるようです。
「ー」は数字か記号か 省庁、データ表記統一へ :日本経済新聞
- 内閣官房を中心にルール検討
- 戸籍、住民基本台帳、商標登記簿、不動産登記、地図などのデータ
- 使う文字、記号、表記の方法が違う
- 同じ文字でも書き方が異なる
- システムによって、使えない文字がある(例:蛍の旧字)
- 222(222)222 と 222-222-222
- 2020年8月20日 と 20200820
- 古いデータ(「東京市」など)
- コロナ禍で社会が急速にデジタル化。情報のデジタルでの整備は重要
- 「デジタル庁」の構想も
コメント
特許事務所の外国商標業務は、紙ファイル中心であることが多いようです。これをいかに電子化していくかが、重要な話になっています。
私の所属する事務所の基幹システムは、特許事務所で良く使われている、PATDATAというシステムなのですが、これを使って、どうやって紙ファイルから電子管理に移行するか、試行錯誤をしているところです。
さて、PATDATAでは、通常は、事務所の案件番号(ケースナンバー)を使って検索していたのですが、米国の番号で検索して、はたと困りました。
米国のシリアルナンバーは、二桁の数字の後ろに、スラッシュが付いていることが多いのですが、スラッシュありとスラッシュなしでは、PATDATAは別の番号と認識するようです。
また、登録番号には、3桁ごとにカンマを打って報告されることがありますが、この数字のカンマありとカンマ無しでも、別の数字と認識します。
人間が見ると、同じものということはすぐに分かるのですが、PATDATAではそこは別のものと認識しているようです。
ここは曖昧検索をしてもらわないと、当該案件にたどりつきません。
今、政府がやろうとしていることは、スラッシュやカンマの打ち方のルールの統一に近いと思います。
確かにルールを統一することは必要だろうと思いますし、こんなところで引っかかっていては、前に進めないなと思います。
もし、人間がやっている曖昧検索のようなものができると、双方のデータは同じものということが分かるのではないかなという気はします。
ルールを統一することは悪くはないと思いますが、入力時に自動で正しいものに変換してくれるなどのサポートも、必要であるように思いました。