]> diplodocus.org Git - nmh/blobdiff - test/scan/test-scan-multibyte
h/prototypes.h: Remove duplicate prototype for pwd().
[nmh] / test / scan / test-scan-multibyte
index 3acd1ca123cfe78705ee9eb312d18732bb7b0c6a..dc2a284c76e55d8bc31f935a814dd9560a7d40a1 100755 (executable)
@@ -26,7 +26,7 @@ if test "${MULTIBYTE_ENABLED}" -ne 1; then
     test_skip "configure did not detect multibyte support"
 fi
 
     test_skip "configure did not detect multibyte support"
 fi
 
-LC_ALL=en_US.UTF-8; export LC_ALL
+require_locale en_US.UTF-8 en_US.UTF8 en_US.utf-8 en_US.utf8
 
 #
 # Create a test message with RFC 2047 headers we can scan
 
 #
 # Create a test message with RFC 2047 headers we can scan
@@ -37,17 +37,24 @@ LC_ALL=en_US.UTF-8; export LC_ALL
 # We use a test program to determine what the output width of U+0308 is
 # and adjust our test output appropriately.
 #
 # We use a test program to determine what the output width of U+0308 is
 # and adjust our test output appropriately.
 #
+# True Spın̈al Tap fans will note that David st Hubbins was born in Squatney,
+# London, England, and thus having his name language-tagged with "cy" is almost
+# certainly incorrect.  But in his own words: "Here lies David st Hubbins,
+# and why not?".
+#
+# The second "* in the To line is just to exercise the parser a bit.
+#
 
 cat > "${MH_TEST_DIR}/Mail/inbox/11" <<EOF
 
 cat > "${MH_TEST_DIR}/Mail/inbox/11" <<EOF
-From: David =?utf-8?q?=EF=AC=86?= Hubbins <hubbins@example.com>
-To: Sir Denis =?utf-8?q?Eton=E2=80=93Hogg? <sirdenis@example.com>
+From: David =?utf-8*cy?q?=EF=AC=86?= Hubbins <hubbins@example.com>
+To: Sir Denis =?utf-8*?q?Eton=E2=80=93Hogg? <sirdenis@example.com>
 Date: Friday, 2 Mar 1984 00:00:00
 Subject: =?utf-8?q?Sp=C4=B1n=CC=88al_Tap_=E2=86=92_Tap_into_America!?=
 
 Things are looking great!
 EOF
 
 Date: Friday, 2 Mar 1984 00:00:00
 Subject: =?utf-8?q?Sp=C4=B1n=CC=88al_Tap_=E2=86=92_Tap_into_America!?=
 
 Things are looking great!
 EOF
 
-width=`${MH_OBJ_DIR}/test/getcwidth`
+width=`${MH_OBJ_DIR}/test/getcwidth "→n̈"`
 if test $? -ne 0; then
     echo "getcwidth failed to run"
     exit 1
 if test $? -ne 0; then
     echo "getcwidth failed to run"
     exit 1
@@ -56,28 +63,24 @@ fi
 expected="$MH_TEST_DIR/$$.expected"
 actual="$MH_TEST_DIR/$$.actual"
 
 expected="$MH_TEST_DIR/$$.expected"
 actual="$MH_TEST_DIR/$$.actual"
 
-if test "$width" -eq 1; then
+
+start_test 'RFC 2047 headers'
+if test "$width" -eq 3; then
 cat > "$expected" <<EOF
 cat > "$expected" <<EOF
-  11  03/02 David st Hubbins    Spın̈al Tap → Tap into America!<<Things are look
+  11  03/02 David st Hubbins    Spın̈al Tap → Tap into America!<<Things are looki
 EOF
 EOF
-elif test "$width" -eq 0; then
+elif test "$width" -eq 2; then
 cat > "$expected" <<EOF
 cat > "$expected" <<EOF
-  11  03/02 David st Hubbins    Spın̈al Tap → Tap into America!<<Things are looki
+  11  03/02 David st Hubbins    Spın̈al Tap → Tap into America!<<Things are lookin
 EOF
 else
 EOF
 else
-    echo "Unsupported width for combining diaeresis: $width"
+    echo "Unsupported width for UTF-8 test string: $width"
     exit 1
 fi
 
     exit 1
 fi
 
-scan -width 80 +inbox 11 > $actual || exit 1
-set -x
-oldfailed="${failed:-0}"
+run_prog scan -width 80 +inbox 11 > $actual || exit 1
 check "$expected" "$actual"
 check "$expected" "$actual"
-if test "$oldfailed" -ne "${failed:-0}"; then
-       echo "Complete UTF-8 width table for BMP"
-       ${MH_OBJ_DIR}/test/getcwidth --dump
-fi
-set +x
+
 
 #
 # Check decoding with an invalid multibyte sequence.  We skip this test
 
 #
 # Check decoding with an invalid multibyte sequence.  We skip this test
@@ -86,6 +89,7 @@ set +x
 # it's required for the test right after it.
 #
 
 # it's required for the test right after it.
 #
 
+start_test 'invalid multibyte sequence'
 cat >`mhpath new` <<EOF
 From: Test12 <test12@example.com>
 To: Some User <user@example.com>
 cat >`mhpath new` <<EOF
 From: Test12 <test12@example.com>
 To: Some User <user@example.com>
@@ -94,26 +98,90 @@ Message-Id: 12@test.nmh
 Subject: =?UTF-8?B?MjAxMyBOZXcgWWVhcuKAmXMgRGVhbHMhIFN0YXJ0IHRoZSB5ZWFy?=
        =?UTF-8?B?IHJpZ2h0IHdpdGggYmlnIHNhdmluZ3M=?=
 
 Subject: =?UTF-8?B?MjAxMyBOZXcgWWVhcuKAmXMgRGVhbHMhIFN0YXJ0IHRoZSB5ZWFy?=
        =?UTF-8?B?IHJpZ2h0IHdpdGggYmlnIHNhdmluZ3M=?=
 
-This message has an encoded Subject with an invalid character for the
-ISO-8859-1 character set, but it (U+2019) is valid UTF-8.
+This message has an encoded Subject with an invalid character for
+single-byte character sets, but it (U+2019) is valid UTF-8.
 EOF
 
 EOF
 
-cat >"$expected" <<EOF
+if test "$ICONV_ENABLED" -eq 1; then
+    cat >"$expected" <<EOF
   12  12/31 Test12             2013 New Year?s Deals! Start the year right
 EOF
 
   12  12/31 Test12             2013 New Year?s Deals! Start the year right
 EOF
 
-if test "$ICONV_ENABLED" -eq 1; then
-    LC_CTYPE=ISO-8859-1 MM_CHARSET=ISO-8859-1 scan -width 75 last >"$actual"
+    # Don't use run_prog here because it loses the environment setting.
+    LC_ALL=C scan -width 74 last >"$actual"
     check "$expected" "$actual"
 fi
 
     check "$expected" "$actual"
 fi
 
+#
+# Find out the width of our Unicode apostrophe (U+2019).  Some implementations
+# say it has a width of 2, but that seems totally bizarre to me.
+#
+
+width=`${MH_OBJ_DIR}/test/getcwidth U+2019`
+if test $? -ne 0; then
+    echo "getcwidth failed to run"
+    exit 1
+fi
+
 # check scan width with a valid multibyte sequence
 # check scan width with a valid multibyte sequence
-cat >"$expected" <<EOF
+start_test 'scan width with a valid multibyte sequence'
+if test "$width" -eq 1; then
+    cat >"$expected" <<EOF
   12  12/31 Test12             2013 New Year’s Deals! Start the year right
 EOF
   12  12/31 Test12             2013 New Year’s Deals! Start the year right
 EOF
+elif test "$width" -eq 2; then
+    cat >"$expected" <<EOF
+  12  12/31 Test12             2013 New Year’s Deals! Start the year righ
+EOF
+else
+    echo "Unsupported width for U+2019: $width"
+fi
+
+run_prog scan -width 74 last >"$actual"
+check "$expected" "$actual"
+
+
+if test "$ICONV_ENABLED" -eq 1; then
+  start_test 'encoded single quote'
+  cat >"$expected" <<EOF
+  13  01/13 sender@example.co  <<The Subject: is an encoded single quote, 0x92. 
+EOF
+
+  cat >"${MH_TEST_DIR}/Mail/inbox/13" <<EOF
+From: <sender@example.com>
+Subject: =?iso-8859-1?B?kgo=?=
+Date: Mon, 13 Jan 2014 14:18:33 -0600
+
+The Subject: is an encoded single quote, 0x92.  cpstripped() didn't
+properly count it when decoding, which could be seen with:
+
+    scan -format '%(decode{subject})%{body}'
+
+The scan listing was two characters too long.
+EOF
+
+  run_prog scan -width 80 last >"$actual"
+  check "$expected" "$actual"
+fi
+
+
+start_test 'insufficient room for multicolumn character'
+#### This multibyte character requires 2 columns for display, but
+#### only 1 is availble.  cpstripped() used to get this wrong.
+
+cat >"$expected" <<EOF
+EOF
+
+cat >`mhpath new` <<EOF
+Mime-Version: 1.0
+
+在 Should not see any of this text
+EOF
 
 
-LC_CTYPE=en_US.UTF-8 MM_CHARSET=UTF-8 scan -width 75 last >"$actual"
+run_prog scan -format '%{body}' -width 1 last >"$actual"
 check "$expected" "$actual"
 
 
 check "$expected" "$actual"
 
 
+finish_test
 exit $failed
 exit $failed