[ksnctf] Are you human?

11th Oct 2016

ksnctfにチャレンジ第34問目です。

※ksnctfは常駐型のCTFサイトです。 ※問題のページはコチラです。

Are you human?

第一段階として　画像データとして渡される　RS符号付きの破損画像データのダンプデータを復元する作業に苦戦します。

OCRにかけるしかないのですが、OCRを邪魔する線などが多く OCRが嫌いそうな明るさの文字のせいでほとんどテキストが抽出できません。

よってまず ImageMagicで下処理してみることにしました。

OCRには tesseract を使うことにして

#!/bin/sh

mkdir text
mkdir img
echo "tessedit_char_whitelist 0123456789ABCDEF" > ocr.conf

for pic in *.png
do
    base=$(basename ${pic} .png)
    BG=$(convert ${base}.png -crop 1x1+0+0 txt:- | sed -n 2p - | cut -d " " -f4)
    convert -fill '#FFFFFF' -opaque "${BG}" ${base}.png  ${base}_a.png
    convert -threshold 55000 ${base}_a.png ${base}_b.png
    convert -gaussian-blur 2x2 ${base}_b.png ${base}_c.png
    convert -threshold 35000 ${base}_c.png ${base}_d.png
    tesseract ${base}_d.png stdout -psm 7 ocr.conf > ./txt/${base}.txt
    mv ${base}_d.png ./img/${base}.png
    rm ${base}_?.png
done

これで

↓ に変換されるので　大抵の画像でOCRが通るようになりますがそれでも百近いデータを処理ミスしてしまいこれは手作業で直さないとどうにもなりそうになく、ちょっとやる気にならないので画像の処理方法を工夫中です。