ファイルが同じかどうかを比較するにはハッシュが便利です。
ハッシュはデータの並びの特徴を表した数値です。
その値が同じであれば、データが同じである確率がとても高くなります。
コード
下記のソースでは指定されたフォルダ(4行目)内に同じ内容のファイルがある場合、そのファイルを表示します。
今回は「SHA256」という種類のハッシュで計算しました。
1 | import os, sys, glob, hashlib |
13行目のコメントアウトを外すと重複したファイルを消すことができます。
ファイルが同じかどうかを比較するにはハッシュが便利です。
ハッシュはデータの並びの特徴を表した数値です。
その値が同じであれば、データが同じである確率がとても高くなります。
下記のソースでは指定されたフォルダ(4行目)内に同じ内容のファイルがある場合、そのファイルを表示します。
今回は「SHA256」という種類のハッシュで計算しました。
1 | import os, sys, glob, hashlib |
13行目のコメントアウトを外すと重複したファイルを消すことができます。