行政改革担当大臣(当時)のツイートから始まったExcel改革
2020年11月に、当時の河野太郎行政改革担当大臣がTwitterで発信した「データ表記方法の統一」について、多くの反響が集まりました。2022年3月時点では約7600いいね、90件の返信を集めています。
河野太郎氏のツイート
各省庁がネット上で公開する統計を機械判読可能にするために、データの表記方法を統一させます。「政府統計の総合窓口(e-Stat)」で本日から12月1日までの間、表記方法案に関する意見照会を行います。研究者をはじめ、皆様のご意見をお待ちしています。https://t.co/h07tCTDazc
— 河野太郎 (@konotarogomame) November 25, 2020
さまざまな意見も反映させたExcelなどデータ入力の「統一ルール」
上記のTwitter発信後、12月に策定されたのが「統計表における機械判読可能データ作成に関する表記方法」です。
資料の名前だけを見ると難しそう、と感じる方もいるかもしれませんが、実際には、機械が読み取ってくれるデータ入力の方法が、「◯」「×」形式でわかりやすく伝えられています。
▼参考URL:総務省|統計表における機械判読可能なデータの表記方法の統一ルールの策定(外部サイト)
総務省のルールから、一般の人でも参考になる統一ルール12か条
総務省が発表したデータの表記方法の統一ルールについて、一般の企業などでも活用できるルールは11項目あります。
また、総務省や公務員ならではのルールも含まれていましたので、最後にご紹介します。
【統一ルール1】ファイル形式は Excel か CSV とする
まずは、大前提としてファイル形式がエクセル、またはCSV形式になっているかということからチェック項目に入っています。
統計データのファイル形式は、仕様が公開・標準化されているもの、または国際的に標準化されているフォーマットだと、広く扱いやすいようです。
【統一ルール2】1セル1データとする
エクセルの1つのセルには1データにするというルールです。
1セルに複数のデータが入力されていると、計算や昇順・降順の並べ替え、コピーペーストやグラフ
化等加工編集する場合に多くの手作業やプログラムの作成が必要となってしまいます。
すぐにデータとして利用できないため、効率が悪いので1セル1データを推奨しています。
【統一ルール3】数値データは数値属性とし、文字列を含まない
数値データは文字列を含まずに純粋に「数値」として入力するというルールです
例えば、数値データに、「円」「¥」「kg」「トン」などの単位や、マイナス記号の「▲」を文字列として入力すると、エクセルではエラーになり計算できないことがあるほか、昇順・降順等の並べ替えも正確にできない場合があるようです。
また、千円単位を示す「,(カンマ)」を文字列として入力している場合、関数によっては正確に計算できない場合があるので要注意です。
あくまで、数値データは数値属性とし、文字列を含まないことが重要です。
【統一ルール4】セルの結合をしない
セルの結合は行わないようにするというルールです。
セルが結合、または分離されていると、データを読み込む際エラーになることが多く、機械判読に適していません。
そのため、基本的には1件のデータは、横1行、縦1列で表記し、セルの結合や、不必要な分離を行わないことが大切です。
【統一ルール5】スペースや改行等で体裁を整えない
スペースや改行で体裁を整えないことも、その後のデータの扱いやすさという点からはとても大切です。
まず、スペースや改行等で体裁を整えた場合、データの検索性が低下します。さらに、複数の表を横断的に利用する場合においても支障が生じる可能性が増加します。
つい体裁を整えるためのスペースや改行をしたくなりますが、避けた方が良いようです。
【統一ルール6】項目名等を省略しない
くどいからといって、項目名等を省略することも避けましょう。
ヒトであれば省略されている部分の意味をなんとなく判断できますが、ソフトウェア等のプログラムではそのような曖昧な判断ができません。
そのため、例え連続する項目名等であっても省略しないことが重要です。
【統一ルール7】数式を使用している場合は、数値データに修正する
このルールについては企業や業種によっては適さない場合があるようですが、数式を使用している場合、数値データに修正しておくと、エラーが減るというメリットがあります。
数式によるエラーが起こりやすいという場合は、数値に修正しておくとストレスが減るかもしれません。
【統一ルール8】オブジェクトを使用しない
資料を見やすくするための画像など「オブジェクト」を使用するのも避けたほうが良いです。
オブジェクトによって体裁を整えているデータは、機械判読に適していません。オブジェクトを削除した上で、それぞれのセルにデータを入力することが、結果として効率性を上げることがあるようです。
【統一ルール9】データの単位を記載する
物理単位や貨幣単位など、データの単位はデータ処理に必須の項目です。単位がなければ、例え下記のように「出荷本数」や「単価」などの項目の列に数字が入っていたとしても、機械は何の数値か判別することはできません。
単位が含まれる項目については、別セルにその項目の単位を入力することが必要です。
【統一ルール10】機種依存文字を使用しない
機種依存文字を使うことでエラーになるケースもあります。
機種依存文字は、データを扱う利用者の環境によって、正しく表示されない等の可能性が高くなるようです。そのため、多くの人が扱う可能性のあるデータでは、機種依存文字は使用しないのが無難なようです。
【統一ルール11】データを分断しない
資料を見やすくするために、空白列を入れてしまうことがありますが、データ入力に関しては機械判読がしにくくなるので避けたほうが良いようです。
空白列などを追加したり、Excelの1シートに表を分断して、複数の表に分けて設定した場合、データが分断されてしまい、機械判読に支障が出ます。
そのため、不必要な表の分離は行わないようにする、 また、表の印刷や見栄えを意識して、不必要な空白行や列を追加しないことが大切です。
【統一ルール12】1シートに複数の表を掲載しない
最後のルールは、1シートに複数の表を掲載しないことです。
1シートに複数の表が掲載されていると、正確な計算や、昇順・降順の並べ替えなどができない場合があります。 1シートには1つの表と、シートごとに分割して収録するようにします。
総務省、行政ならではの統一ルールも
上記は一般的にも応用できるルールでしたが、総務省や公務員ならではのルールも含まれていましたのでご紹介します。
- e-Statの時間軸コードの表記、西暦表記または和暦に西暦の併記する
→日付等のデータは公的な書類では和暦のことも多いため、政府による統計情報を集めた総合サイトeーStatで決められているコードを表記するなどで効率化を図れるようです。 - ・地域コード又は地域名称を表記する
→地域についても、共通の地域コードがあるので、その使用が推奨されています。 - ・数値データの同一列内に特殊記号(秘匿等)が含まれる場合
→集計に必要なデータがない場合や、データの公表が認められていない秘匿データがある場合には、特殊記号を使うことが認められています。
まとめ
このページでは、総務省が発表し、話題となった「統計表における機械判読可能データ作成に関する表記方法」についてご紹介しました。
確認してみるとどれも基本的な事項ではあり、普段Excelで作業している方からすると当然だと思う項目もあるかと思いますが、実際に世のデータを見返してみると形式が統一されていないばかりに比較ができないもの、比較するまでに修正の手間がかかるものが数多く存在していると思います。
公務員は異動も多く、その部署の慣習に慣れたと思ったらまた異動、となっていては効率が悪くなるという事態が発生しやすい職業でもあります。
統一ルールが少なくとも総務省内から始まり、ゆくゆくは全省庁で統一されると、公務員の仕事の効率性、さらに日本全体の生産性も向上につながりそうです。
総務省のルールは、一般企業等でデータに携わったことのない新人研修の資料としても活用できそうです。
全国民に配りたい!とまで表現する方もいる総務省直伝の「Excelデータの入力方法」をご紹介しました。
コメント