]> git.tuebingen.mpg.de Git - paraslash.git/blob - string.c
Merge topic branch t/openssl-3 into pu
[paraslash.git] / string.c
1 /* Copyright (C) 2004 Andre Noll <maan@tuebingen.mpg.de>, see file COPYING. */
2
3 /** \file string.c Memory allocation and string handling functions. */
4
5 #include "para.h"
6
7 #include <pwd.h>
8 #include <sys/utsname.h> /* uname() */
9 #include <regex.h>
10 #include <langinfo.h>
11 #include <wchar.h>
12 #include <wctype.h>
13
14 #include "string.h"
15 #include "error.h"
16
17 /**
18  * Reallocate an array, abort on failure or bugs.
19  *
20  * \param ptr Pointer to the memory block, may be NULL.
21  * \param nmemb Number of elements.
22  * \param size The size of one element in bytes.
23  *
24  * A wrapper for realloc(3) which aborts on invalid arguments or integer
25  * overflow. The wrapper also terminates the current process on allocation
26  * errors, so the caller does not need to check for failure.
27  *
28  * \return A pointer to newly allocated memory which is suitably aligned for
29  * any kind of variable and may be different from ptr.
30  *
31  * \sa realloc(3).
32  */
33 __must_check void *arr_realloc(void *ptr, size_t nmemb, size_t size)
34 {
35         size_t pr;
36
37         assert(size > 0);
38         assert(nmemb > 0);
39         assert(!__builtin_mul_overflow(nmemb, size, &pr));
40         assert(pr != 0);
41         ptr = realloc(ptr, pr);
42         assert(ptr);
43         return ptr;
44 }
45
46 /**
47  * Allocate an array, abort on failure or bugs.
48  *
49  * \param nmemb See \ref arr_realloc().
50  * \param size See \ref arr_realloc().
51  *
52  * Like \ref arr_realloc(), this aborts on invalid arguments, integer overflow
53  * and allocation errors.
54  *
55  * \return A pointer to newly allocated memory which is suitably aligned for
56  * any kind of variable.
57  *
58  * \sa See \ref arr_realloc().
59  */
60 __must_check __malloc void *arr_alloc(size_t nmemb, size_t size)
61 {
62         return arr_realloc(NULL, nmemb, size);
63 }
64
65 /**
66  * Allocate and initialize an array, abort on failure or bugs.
67  *
68  * \param nmemb See \ref arr_realloc().
69  * \param size See \ref arr_realloc().
70  *
71  * This calls \ref arr_alloc() and zeroes-out the array.
72  *
73  * \return See \ref arr_alloc().
74  */
75 __must_check __malloc void *arr_zalloc(size_t nmemb, size_t size)
76 {
77         void *ptr = arr_alloc(nmemb, size);
78
79         /*
80          * This multiplication can not overflow because the above call to \ref
81          * arr_alloc() aborts on overflow.
82          */
83         memset(ptr, 0, nmemb * size);
84         return ptr;
85 }
86
87 /**
88  * Allocate and initialize memory.
89  *
90  * \param size The desired new size.
91  *
92  * \return A pointer to the allocated and zeroed-out memory, which is suitably
93  * aligned for any kind of variable.
94  *
95  * \sa \ref alloc(), calloc(3).
96  */
97 __must_check void *zalloc(size_t size)
98 {
99         return arr_zalloc(1, size);
100 }
101
102 /**
103  * Paraslash's version of realloc().
104  *
105  * \param p Pointer to the memory block, may be \p NULL.
106  * \param size The desired new size.
107  *
108  * A wrapper for realloc(3). It calls \p exit(\p EXIT_FAILURE) on errors,
109  * i.e. there is no need to check the return value in the caller.
110  *
111  * \return A pointer to newly allocated memory which is suitably aligned for
112  * any kind of variable and may be different from \a p.
113  *
114  * \sa realloc(3).
115  */
116 __must_check void *para_realloc(void *p, size_t size)
117 {
118         return arr_realloc(p, 1, size);
119 }
120
121 /**
122  * Paraslash's version of malloc().
123  *
124  * \param size The desired new size.
125  *
126  * A wrapper for malloc(3) which exits on errors.
127  *
128  * \return A pointer to the allocated memory, which is suitably aligned for any
129  * kind of variable.
130  *
131  * \sa malloc(3).
132  */
133 __must_check __malloc void *alloc(size_t size)
134 {
135         return arr_alloc(1, size);
136 }
137
138 /**
139  * Paraslash's version of strdup().
140  *
141  * \param s The string to be duplicated.
142  *
143  * A strdup(3)-like function which aborts if insufficient memory was available
144  * to allocate the duplicated string, absolving the caller from the
145  * responsibility to check for failure.
146  *
147  * \return A pointer to the duplicated string. Unlike strdup(3), the caller may
148  * pass NULL, in which case the function returns a pointer to an empty string.
149  * Regardless of whether or not NULL was passed, the returned string is
150  * allocated on the heap and has to be freed by the caller.
151  *
152  * \sa strdup(3).
153  */
154 __must_check __malloc char *para_strdup(const char *s)
155 {
156         char *dupped_string = strdup(s? s: "");
157
158         assert(dupped_string);
159         return dupped_string;
160 }
161
162 /**
163  * Print a formatted message to a dynamically allocated string.
164  *
165  * \param result The formatted string is returned here.
166  * \param fmt The format string.
167  * \param ap Initialized list of arguments.
168  *
169  * This function is similar to vasprintf(), a GNU extension which is not in C
170  * or POSIX. It allocates a string large enough to hold the output including
171  * the terminating null byte. The allocated string is returned via the first
172  * argument and must be freed by the caller. However, unlike vasprintf(), this
173  * function calls exit() if insufficient memory is available, while vasprintf()
174  * returns -1 in this case.
175  *
176  * \return Number of bytes written, not including the terminating \p NULL
177  * character.
178  *
179  * \sa printf(3), vsnprintf(3), va_start(3), vasprintf(3), \ref xasprintf().
180  */
181 __printf_2_0 unsigned xvasprintf(char **result, const char *fmt, va_list ap)
182 {
183         int ret;
184         size_t size = 150;
185         va_list aq;
186
187         *result = alloc(size + 1);
188         va_copy(aq, ap);
189         ret = vsnprintf(*result, size, fmt, aq);
190         va_end(aq);
191         assert(ret >= 0);
192         if (ret < size) /* OK */
193                 return ret;
194         size = ret + 1;
195         *result = para_realloc(*result, size);
196         va_copy(aq, ap);
197         ret = vsnprintf(*result, size, fmt, aq);
198         va_end(aq);
199         assert(ret >= 0 && ret < size);
200         return ret;
201 }
202
203 /**
204  * Print to a dynamically allocated string, variable number of arguments.
205  *
206  * \param result See \ref xvasprintf().
207  * \param fmt Usual format string.
208  *
209  * \return The return value of the underlying call to \ref xvasprintf().
210  *
211  * \sa \ref xvasprintf() and the references mentioned there.
212  */
213 __printf_2_3 unsigned xasprintf(char **result, const char *fmt, ...)
214 {
215         va_list ap;
216         unsigned ret;
217
218         va_start(ap, fmt);
219         ret = xvasprintf(result, fmt, ap);
220         va_end(ap);
221         return ret;
222 }
223
224 /**
225  * Allocate a sufficiently large string and print into it.
226  *
227  * \param fmt A usual format string.
228  *
229  * Produce output according to \p fmt. No artificial bound on the length of the
230  * resulting string is imposed.
231  *
232  * \return This function either returns a pointer to a string that must be
233  * freed by the caller or aborts without returning.
234  *
235  * \sa printf(3), \ref xasprintf().
236  */
237 __must_check __printf_1_2 __malloc char *make_message(const char *fmt, ...)
238 {
239         char *msg;
240         va_list ap;
241
242         va_start(ap, fmt);
243         xvasprintf(&msg, fmt, ap);
244         va_end(ap);
245         return msg;
246 }
247
248 /**
249  * Free the content of a pointer and set it to NULL.
250  *
251  * \param arg A pointer to the pointer whose content should be freed.
252  *
253  * If arg is NULL, the function returns immediately. Otherwise it frees the
254  * memory pointed to by *arg and sets *arg to NULL. Hence callers have to pass
255  * the *address* of the pointer variable that points to the memory which should
256  * be freed.
257  */
258 void freep(void *arg)
259 {
260         if (arg) {
261                 void **ptr = arg;
262                 free(*ptr);
263                 *ptr = NULL;
264         }
265 }
266
267 /**
268  * Paraslash's version of strcat().
269  *
270  * \param a String to be appended to.
271  * \param b String to append.
272  *
273  * Append \p b to \p a.
274  *
275  * \return If \a a is \p NULL, return a pointer to a copy of \a b, i.e.
276  * para_strcat(NULL, b) is equivalent to para_strdup(b). If \a b is \p NULL,
277  * return \a a without making a copy of \a a.  Otherwise, construct the
278  * concatenation \a c, free \a a (but not \a b) and return \a c.
279  *
280  * \sa strcat(3).
281  */
282 __must_check __malloc char *para_strcat(char *a, const char *b)
283 {
284         char *tmp;
285
286         if (!a)
287                 return para_strdup(b);
288         if (!b)
289                 return a;
290         tmp = make_message("%s%s", a, b);
291         free(a);
292         return tmp;
293 }
294
295 /**
296  * Get the logname of the current user.
297  *
298  * \return A dynamically allocated string that must be freed by the caller. On
299  * errors, the string "unknown_user" is returned, i.e. this function never
300  * returns \p NULL.
301  *
302  * \sa getpwuid(3).
303  */
304 __must_check __malloc char *para_logname(void)
305 {
306         struct passwd *pw = getpwuid(getuid());
307         return para_strdup(pw? pw->pw_name : "unknown_user");
308 }
309
310 /**
311  * Return the expansion of $HOME/.paraslash.
312  *
313  * \return A pointer to memory that must not be freed by the caller. If the
314  * environment variable HOME is unset or empty, the function prints an error
315  * message and aborts.
316  *
317  * \sa getenv(3), getuid(2).
318  */
319 const char *get_confdir(void)
320 {
321         static const char *dot_para;
322         const char *home;
323
324         if (dot_para)
325                 return dot_para;
326         home = getenv("HOME");
327         if (!home || !*home) {
328                 PARA_EMERG_LOG("fatal: HOME is unset or empty");
329                 exit(EXIT_FAILURE);
330         }
331         dot_para = make_message("%s/.paraslash", home);
332         return dot_para;
333 }
334
335 /**
336  * Get the own hostname.
337  *
338  * \return A dynamically allocated string containing the hostname.
339  *
340  * \sa uname(2).
341  */
342 __malloc char *para_hostname(void)
343 {
344         struct utsname u;
345
346         uname(&u);
347         return para_strdup(u.nodename);
348 }
349
350 /**
351  * Call a custom function for each complete line.
352  *
353  * \param flags Any combination of flags defined in \ref for_each_line_flags.
354  * \param buf The buffer containing data separated by newlines.
355  * \param size The number of bytes in \a buf.
356  * \param line_handler The custom function.
357  * \param private_data Pointer passed to \a line_handler.
358  *
359  * For each complete line in \p buf, \p line_handler is called. The first
360  * argument to \p line_handler is (a copy of) the current line, and \p
361  * private_data is passed as the second argument.  If the \p FELF_READ_ONLY
362  * flag is unset, a pointer into \a buf is passed to the line handler,
363  * otherwise a pointer to a copy of the current line is passed instead. This
364  * copy is freed immediately after the line handler returns.
365  *
366  * The function returns if \p line_handler returns a negative value or no more
367  * lines are in the buffer.  The rest of the buffer (last chunk containing an
368  * incomplete line) is moved to the beginning of the buffer if FELF_READ_ONLY is
369  * unset.
370  *
371  * \return On success this function returns the number of bytes not handled to
372  * \p line_handler. The only possible error is a negative return value from the
373  * line handler. In this case processing stops and the return value of the line
374  * handler is returned to indicate failure.
375  *
376  * \sa \ref for_each_line_flags.
377  */
378 int for_each_line(unsigned flags, char *buf, size_t size,
379                 line_handler_t *line_handler, void *private_data)
380 {
381         char *start = buf, *end;
382         int ret, i, num_lines = 0;
383
384 //      PARA_NOTICE_LOG("buf: %s\n", buf);
385         while (start < buf + size) {
386                 char *next_null;
387                 char *next_cr;
388
389                 next_cr = memchr(start, '\n', buf + size - start);
390                 next_null = memchr(start, '\0', next_cr?
391                         next_cr - start : buf + size - start);
392                 if (!next_cr && !next_null)
393                         break;
394                 if (next_null)
395                         end = next_null;
396                 else
397                         end = next_cr;
398                 num_lines++;
399                 if (!(flags & FELF_DISCARD_FIRST) || start != buf) {
400                         if (flags & FELF_READ_ONLY) {
401                                 size_t s = end - start;
402                                 char *b = alloc(s + 1);
403                                 memcpy(b, start, s);
404                                 b[s] = '\0';
405                                 ret = line_handler(b, private_data);
406                                 free(b);
407                         } else {
408                                 *end = '\0';
409                                 ret = line_handler(start, private_data);
410                         }
411                         if (ret < 0)
412                                 return ret;
413                 }
414                 start = ++end;
415         }
416         i = buf + size - start;
417         if (i && i != size && !(flags & FELF_READ_ONLY))
418                 memmove(buf, start, i);
419         return i;
420 }
421
422 /** Return the hex characters of the lower 4 bits. */
423 #define hex(a) (hexchar[(a) & 15])
424
425 static void write_size_header(char *buf, int n)
426 {
427         static char hexchar[] = "0123456789abcdef";
428
429         buf[0] = hex(n >> 12);
430         buf[1] = hex(n >> 8);
431         buf[2] = hex(n >> 4);
432         buf[3] = hex(n);
433         buf[4] = ' ';
434 }
435
436 /**
437  * Read a four-byte hex-number and return its value.
438  *
439  * Each status item sent by para_server is prefixed with such a hex number in
440  * ASCII which describes the size of the status item.
441  *
442  * \param buf The buffer which must be at least four bytes long.
443  *
444  * \return The value of the hex number on success, \p -E_SIZE_PREFIX if the
445  * buffer did not contain only hex digits.
446  */
447 int read_size_header(const char *buf)
448 {
449         int i, len = 0;
450
451         for (i = 0; i < 4; i++) {
452                 unsigned char c = buf[i];
453                 len <<= 4;
454                 if (c >= '0' && c <= '9') {
455                         len += c - '0';
456                         continue;
457                 }
458                 if (c >= 'a' && c <= 'f') {
459                         len += c - 'a' + 10;
460                         continue;
461                 }
462                 return -E_SIZE_PREFIX;
463         }
464         if (buf[4] != ' ')
465                 return -E_SIZE_PREFIX;
466         return len;
467 }
468
469 /**
470  * Safely print into a buffer at a given offset.
471  *
472  * \param b Determines the buffer, its size, and the offset.
473  * \param fmt The format string.
474  *
475  * This function prints into the buffer given by \a b at the offset which is
476  * also given by \a b. If there is not enough space to hold the result, the
477  * buffer size is doubled until the underlying call to vsnprintf() succeeds
478  * or the size of the buffer exceeds the maximal size specified in \a b.
479  *
480  * In the latter case the unmodified \a buf and \a offset values as well as the
481  * private_data pointer of \a b are passed to the \a max_size_handler of \a b.
482  * If this function succeeds, i.e. returns a non-negative value, the offset of
483  * \a b is reset to zero and the given data is written to the beginning of the
484  * buffer. If \a max_size_handler() returns a negative value, this value is
485  * returned by \a para_printf().
486  *
487  * Upon return, the offset of \a b is adjusted accordingly so that subsequent
488  * calls to this function append data to what is already contained in the
489  * buffer.
490  *
491  * It's OK to call this function with \p b->buf being \p NULL. In this case, an
492  * initial buffer is allocated.
493  *
494  * \return The number of bytes printed into the buffer (not including the
495  * terminating \p NULL byte) on success, negative on errors. If there is no
496  * size-bound on \a b, i.e. if \p b->max_size is zero, this function never
497  * fails.
498  *
499  * \sa make_message(), vsnprintf(3).
500  */
501 __printf_2_3 int para_printf(struct para_buffer *b, const char *fmt, ...)
502 {
503         int ret, sz_off = (b->flags & PBF_SIZE_PREFIX)? 5 : 0;
504
505         if (!b->buf) {
506                 b->buf = alloc(128);
507                 b->size = 128;
508                 b->offset = 0;
509         }
510         while (1) {
511                 char *p = b->buf + b->offset;
512                 size_t size = b->size - b->offset;
513                 va_list ap;
514
515                 if (size > sz_off) {
516                         va_start(ap, fmt);
517                         ret = vsnprintf(p + sz_off, size - sz_off, fmt, ap);
518                         va_end(ap);
519                         if (ret > -1 && ret < size - sz_off) { /* success */
520                                 b->offset += ret + sz_off;
521                                 if (sz_off)
522                                         write_size_header(p, ret);
523                                 return ret + sz_off;
524                         }
525                 }
526                 /* check if we may grow the buffer */
527                 if (!b->max_size || 2 * b->size < b->max_size) { /* yes */
528                         /* try again with more space */
529                         b->size *= 2;
530                         b->buf = para_realloc(b->buf, b->size);
531                         continue;
532                 }
533                 /* can't grow buffer */
534                 if (!b->offset || !b->max_size_handler) /* message too large */
535                         return -ERRNO_TO_PARA_ERROR(ENOSPC);
536                 ret = b->max_size_handler(b->buf, b->offset, b->private_data);
537                 if (ret < 0)
538                         return ret;
539                 b->offset = 0;
540         }
541 }
542
543 /** \cond llong_minmax */
544 /* LLONG_MAX and LLONG_MIN might not be defined. */
545 #ifndef LLONG_MAX
546 #define LLONG_MAX 9223372036854775807LL
547 #endif
548 #ifndef LLONG_MIN
549 #define LLONG_MIN (-LLONG_MAX - 1LL)
550 #endif
551 /** \endcond llong_minmax */
552
553 /**
554  * Convert a string to a 64-bit signed integer value.
555  *
556  * \param str The string to be converted.
557  * \param value Result pointer.
558  *
559  * \return Standard.
560  *
561  * \sa \ref para_atoi32(), strtol(3), atoi(3).
562  */
563 int para_atoi64(const char *str, int64_t *value)
564 {
565         char *endptr;
566         long long tmp;
567
568         errno = 0; /* To distinguish success/failure after call */
569         tmp = strtoll(str, &endptr, 10);
570         if (errno == ERANGE && (tmp == LLONG_MAX || tmp == LLONG_MIN))
571                 return -E_ATOI_OVERFLOW;
572         /*
573          * If there were no digits at all, strtoll() stores the original value
574          * of str in *endptr.
575          */
576         if (endptr == str)
577                 return -E_ATOI_NO_DIGITS;
578         /*
579          * The implementation may also set errno and return 0 in case no
580          * conversion was performed.
581          */
582         if (errno != 0 && tmp == 0)
583                 return -E_ATOI_NO_DIGITS;
584         if (*endptr != '\0') /* Further characters after number */
585                 return -E_ATOI_JUNK_AT_END;
586         *value = tmp;
587         return 1;
588 }
589
590 /**
591  * Convert a string to a 32-bit signed integer value.
592  *
593  * \param str The string to be converted.
594  * \param value Result pointer.
595  *
596  * \return Standard.
597  *
598  * \sa \ref para_atoi64().
599 */
600 int para_atoi32(const char *str, int32_t *value)
601 {
602         int64_t tmp;
603         int ret;
604         const int32_t max = 2147483647;
605
606         ret = para_atoi64(str, &tmp);
607         if (ret < 0)
608                 return ret;
609         if (tmp > max || tmp < -max - 1)
610                 return -E_ATOI_OVERFLOW;
611         *value = tmp;
612         return 1;
613 }
614
615 static int get_next_word(const char *buf, const char *delim, char **word)
616 {
617         enum line_state_flags {LSF_HAVE_WORD = 1, LSF_BACKSLASH = 2,
618                 LSF_SINGLE_QUOTE = 4, LSF_DOUBLE_QUOTE = 8};
619         const char *in;
620         char *out;
621         int ret, state = 0;
622
623         out = alloc(strlen(buf) + 1);
624         *out = '\0';
625         *word = out;
626         for (in = buf; *in; in++) {
627                 const char *p;
628
629                 switch (*in) {
630                 case '\\':
631                         if (state & LSF_BACKSLASH) /* \\ */
632                                 goto copy_char;
633                         state |= LSF_BACKSLASH;
634                         state |= LSF_HAVE_WORD;
635                         continue;
636                 case 'n':
637                 case 't':
638                         if (state & LSF_BACKSLASH) { /* \n or \t */
639                                 *out++ = (*in == 'n')? '\n' : '\t';
640                                 state &= ~LSF_BACKSLASH;
641                                 continue;
642                         }
643                         goto copy_char;
644                 case '"':
645                         if (state & LSF_BACKSLASH) /* \" */
646                                 goto copy_char;
647                         if (state & LSF_SINGLE_QUOTE) /* '" */
648                                 goto copy_char;
649                         if (state & LSF_DOUBLE_QUOTE) {
650                                 state &= ~LSF_DOUBLE_QUOTE;
651                                 continue;
652                         }
653                         state |= LSF_HAVE_WORD;
654                         state |= LSF_DOUBLE_QUOTE;
655                         continue;
656                 case '\'':
657                         if (state & LSF_BACKSLASH) /* \' */
658                                 goto copy_char;
659                         if (state & LSF_DOUBLE_QUOTE) /* "' */
660                                 goto copy_char;
661                         if (state & LSF_SINGLE_QUOTE) {
662                                 state &= ~LSF_SINGLE_QUOTE;
663                                 continue;
664                         }
665                         state |= LSF_HAVE_WORD;
666                         state |= LSF_SINGLE_QUOTE;
667                         continue;
668                 }
669                 for (p = delim; *p; p++) {
670                         if (*in != *p)
671                                 continue;
672                         if (state & LSF_BACKSLASH)
673                                 goto copy_char;
674                         if (state & LSF_SINGLE_QUOTE)
675                                 goto copy_char;
676                         if (state & LSF_DOUBLE_QUOTE)
677                                 goto copy_char;
678                         if (state & LSF_HAVE_WORD)
679                                 goto success;
680                         break;
681                 }
682                 if (*p) /* ignore delimiter at the beginning */
683                         continue;
684 copy_char:
685                 state |= LSF_HAVE_WORD;
686                 *out++ = *in;
687                 state &= ~LSF_BACKSLASH;
688         }
689         ret = 0;
690         if (!(state & LSF_HAVE_WORD))
691                 goto out;
692         ret = -ERRNO_TO_PARA_ERROR(EINVAL);
693         if (state & LSF_BACKSLASH) {
694                 PARA_ERROR_LOG("trailing backslash\n");
695                 goto out;
696         }
697         if ((state & LSF_SINGLE_QUOTE) || (state & LSF_DOUBLE_QUOTE)) {
698                 PARA_ERROR_LOG("unmatched quote character\n");
699                 goto out;
700         }
701 success:
702         *out = '\0';
703         return in - buf;
704 out:
705         free(*word);
706         *word = NULL;
707         return ret;
708 }
709
710 /**
711  * Get the number of the word the cursor is on.
712  *
713  * \param buf The zero-terminated line buffer.
714  * \param delim Characters that separate words.
715  * \param point The cursor position.
716  *
717  * \return Zero-based word number.
718  */
719 int compute_word_num(const char *buf, const char *delim, int point)
720 {
721         int ret, num_words;
722         const char *p;
723         char *word;
724
725         for (p = buf, num_words = 0; ; p += ret, num_words++) {
726                 ret = get_next_word(p, delim, &word);
727                 if (ret <= 0)
728                         break;
729                 free(word);
730                 if (p + ret >= buf + point)
731                         break;
732         }
733         return num_words;
734 }
735
736 /**
737  * Free an array of words created by create_argv() or create_shifted_argv().
738  *
739  * \param argv A pointer previously obtained by \ref create_argv().
740  */
741 void free_argv(char **argv)
742 {
743         int i;
744
745         if (!argv)
746                 return;
747         for (i = 0; argv[i]; i++)
748                 free(argv[i]);
749         free(argv);
750 }
751
752 static int create_argv_offset(int offset, const char *buf, const char *delim,
753                 char ***result)
754 {
755         char *word, **argv = arr_zalloc(offset + 1, sizeof(char *));
756         const char *p;
757         int i, ret;
758
759         for (p = buf, i = offset; p && *p; p += ret, i++) {
760                 ret = get_next_word(p, delim, &word);
761                 if (ret < 0)
762                         goto err;
763                 if (!ret)
764                         break;
765                 argv = arr_realloc(argv, i + 2, sizeof(char*));
766                 argv[i] = word;
767         }
768         argv[i] = NULL;
769         *result = argv;
770         return i;
771 err:
772         while (i > 0)
773                 free(argv[--i]);
774         free(argv);
775         *result = NULL;
776         return ret;
777 }
778
779 /**
780  * Split a buffer into words.
781  *
782  * This parser honors single and double quotes, backslash-escaped characters
783  * and special characters like \\n. The result contains pointers to copies of
784  * the words contained in buf and has to be freed by using \ref free_argv().
785  *
786  * \param buf The buffer to be split.
787  * \param delim Each character in this string is treated as a separator.
788  * \param result The array of words is returned here.
789  *
790  * It's OK to pass NULL as the buffer argument. This is equivalent to passing
791  * the empty string.
792  *
793  * \return Number of words in buf, negative on errors. The array returned
794  * through the result pointer is NULL terminated.
795  */
796 int create_argv(const char *buf, const char *delim, char ***result)
797 {
798         return create_argv_offset(0, buf, delim, result);
799 }
800
801 /**
802  * Split a buffer into words, offset one.
803  *
804  * This is similar to \ref create_argv() but the returned array is one element
805  * larger, words start at index one and element zero is initialized to \p NULL.
806  * Callers must set element zero to a non-NULL value before calling free_argv()
807  * on the returned array to avoid a memory leak.
808  *
809  * \param buf See \ref create_argv().
810  * \param delim See \ref create_argv().
811  * \param result See \ref create_argv().
812  *
813  * \return Number of words plus one on success, negative on errors.
814  */
815 int create_shifted_argv(const char *buf, const char *delim, char ***result)
816 {
817         return create_argv_offset(1, buf, delim, result);
818 }
819
820 /**
821  * Compile a regular expression.
822  *
823  * This simple wrapper calls regcomp() and logs a message on errors.
824  *
825  * \param preg See regcomp(3).
826  * \param regex See regcomp(3).
827  * \param cflags See regcomp(3).
828  *
829  * \return Standard.
830  */
831 int para_regcomp(regex_t *preg, const char *regex, int cflags)
832 {
833         char *buf;
834         size_t size;
835         int ret = regcomp(preg, regex, cflags);
836
837         if (ret == 0)
838                 return 1;
839         size = regerror(ret, preg, NULL, 0);
840         buf = alloc(size);
841         regerror(ret, preg, buf, size);
842         PARA_ERROR_LOG("%s\n", buf);
843         free(buf);
844         return -E_REGEX;
845 }
846
847 /**
848  * strdup() for not necessarily zero-terminated strings.
849  *
850  * \param src The source buffer.
851  * \param len The number of bytes to be copied.
852  *
853  * \return A 0-terminated buffer of length \a len + 1.
854  *
855  * This is similar to strndup(), which is a GNU extension. However, one
856  * difference is that strndup() returns \p NULL if insufficient memory was
857  * available while this function aborts in this case.
858  *
859  * \sa strdup(), \ref para_strdup().
860  */
861 char *safe_strdup(const char *src, size_t len)
862 {
863         char *p;
864
865         assert(len < (size_t)-1);
866         p = alloc(len + 1);
867         if (len > 0)
868                 memcpy(p, src, len);
869         p[len] = '\0';
870         return p;
871 }
872
873 /**
874  * Copy the value of a key=value pair.
875  *
876  * This checks whether the given buffer starts with "key=", ignoring case. If
877  * yes, a copy of the value is returned. The source buffer may not be
878  * zero-terminated.
879  *
880  * \param src The source buffer.
881  * \param len The number of bytes of the tag.
882  * \param key Only copy if it is the value of this key.
883  *
884  * \return A zero-terminated buffer, or \p NULL if the key was
885  * not of the given type.
886  */
887 char *key_value_copy(const char *src, size_t len, const char *key)
888 {
889         int keylen = strlen(key);
890
891         if (len <= keylen)
892                 return NULL;
893         if (strncasecmp(src, key, keylen))
894                 return NULL;
895         if (src[keylen] != '=')
896                 return NULL;
897         return safe_strdup(src + keylen + 1, len - keylen - 1);
898 }
899
900 static bool utf8_mode(void)
901 {
902         static bool initialized, have_utf8;
903
904         if (!initialized) {
905                 char *info = nl_langinfo(CODESET);
906                 have_utf8 = (info && strcmp(info, "UTF-8") == 0);
907                 initialized = true;
908                 PARA_INFO_LOG("%susing UTF-8 character encoding\n",
909                         have_utf8? "" : "not ");
910         }
911         return have_utf8;
912 }
913
914 static int xwcwidth(wchar_t wc, size_t pos)
915 {
916         int n;
917
918         /* special-case for tab */
919         if (wc == 0x09) /* tab */
920                 return (pos | 7) + 1 - pos;
921         n = wcwidth(wc);
922         /* wcswidth() returns -1 for non-printable characters */
923         return n >= 0? n : 1;
924 }
925
926 static size_t xwcswidth(const wchar_t *s, size_t n)
927 {
928         size_t w = 0;
929
930         while (n--)
931                 w += xwcwidth(*s++, w);
932         return w;
933 }
934
935 /**
936  * Skip a given number of cells at the beginning of a string.
937  *
938  * \param s The input string.
939  * \param cells_to_skip Desired number of cells that should be skipped.
940  * \param bytes_to_skip Result.
941  *
942  * This function computes how many input bytes must be skipped to advance a
943  * string by the given width. If the current character encoding is not UTF-8,
944  * this is simply the given number of cells, i.e. \a cells_to_skip. Otherwise,
945  * \a s is treated as a multibyte string and on successful return, \a s +
946  * bytes_to_skip points to the start of a multibyte string such that the total
947  * width of the multibyte characters that are skipped by advancing \a s that
948  * many bytes equals at least \a cells_to_skip.
949  *
950  * \return Standard.
951  */
952 int skip_cells(const char *s, size_t cells_to_skip, size_t *bytes_to_skip)
953 {
954         wchar_t wc;
955         mbstate_t ps;
956         size_t n, bytes_parsed, cells_skipped;
957
958         *bytes_to_skip = 0;
959         if (cells_to_skip == 0)
960                 return 0;
961         if (!utf8_mode()) {
962                 *bytes_to_skip = cells_to_skip;
963                 return 0;
964         }
965         bytes_parsed = cells_skipped = 0;
966         memset(&ps, 0, sizeof(ps));
967         n = strlen(s);
968         while (cells_to_skip > cells_skipped) {
969                 size_t mbret;
970
971                 mbret = mbrtowc(&wc, s + bytes_parsed, n - bytes_parsed, &ps);
972                 assert(mbret != 0);
973                 if (mbret == (size_t)-1 || mbret == (size_t)-2)
974                         return -ERRNO_TO_PARA_ERROR(EILSEQ);
975                 bytes_parsed += mbret;
976                 cells_skipped += xwcwidth(wc, cells_skipped);
977         }
978         *bytes_to_skip = bytes_parsed;
979         return 1;
980 }
981
982 /**
983  * Compute the width of an UTF-8 string.
984  *
985  * \param s The string.
986  * \param result The width of \a s is returned here.
987  *
988  * If not in UTF8-mode. this function is just a wrapper for strlen(3).
989  * Otherwise \a s is treated as an UTF-8 string and its display width is
990  * computed. Note that this function may fail if the underlying call to
991  * mbsrtowcs(3) fails, so the caller must check the return value.
992  *
993  * \sa nl_langinfo(3), wcswidth(3).
994  *
995  * \return Standard.
996  */
997 __must_check int strwidth(const char *s, size_t *result)
998 {
999         const char *src = s;
1000         mbstate_t state;
1001         static wchar_t *dest;
1002         size_t num_wchars;
1003
1004         /*
1005          * Never call any log function here. This may result in an endless loop
1006          * as para_gui's para_log() calls this function.
1007          */
1008
1009         if (!utf8_mode()) {
1010                 *result = strlen(s);
1011                 return 0;
1012         }
1013         memset(&state, 0, sizeof(state));
1014         *result = 0;
1015         num_wchars = mbsrtowcs(NULL, &src, 0, &state);
1016         if (num_wchars == (size_t)-1)
1017                 return -ERRNO_TO_PARA_ERROR(errno);
1018         if (num_wchars == 0)
1019                 return 0;
1020         dest = arr_alloc(num_wchars + 1, sizeof(*dest));
1021         src = s;
1022         memset(&state, 0, sizeof(state));
1023         num_wchars = mbsrtowcs(dest, &src, num_wchars, &state);
1024         assert(num_wchars > 0 && num_wchars != (size_t)-1);
1025         *result = xwcswidth(dest, num_wchars);
1026         free(dest);
1027         return 1;
1028 }
1029
1030 /**
1031  * Truncate and sanitize a (wide character) string.
1032  *
1033  * This replaces all non-printable characters by spaces and makes sure that the
1034  * modified string does not exceed the given maximal width.
1035  *
1036  * \param src The source string in multi-byte form.
1037  * \param max_width The maximal number of cells the result may occupy.
1038  * \param result Sanitized multi-byte string, must be freed by caller.
1039  * \param width The width of the sanitized string, always <= max_width.
1040  *
1041  * The function is wide-character aware but falls back to C strings for
1042  * non-UTF-8 locales.
1043  *
1044  * \return Standard. On success, *result points to a sanitized copy of the
1045  * given string. This copy was allocated with malloc() and should hence be
1046  * freed when the caller is no longer interested in the result.
1047  *
1048  * The function fails if the given string contains an invalid multibyte
1049  * sequence. In this case, *result is set to NULL, and *width to zero.
1050  */
1051 __must_check int sanitize_str(const char *src, size_t max_width,
1052                 char **result, size_t *width)
1053 {
1054         mbstate_t state;
1055         static wchar_t *wcs;
1056         size_t num_wchars, n;
1057
1058         if (!utf8_mode()) {
1059                 *result = para_strdup(src);
1060                 /* replace non-printable characters by spaces */
1061                 for (n = 0; n < max_width && src[n]; n++) {
1062                         if (!isprint((unsigned char)src[n]))
1063                                 (*result)[n] = ' ';
1064                 }
1065                 (*result)[n] = '\0';
1066                 *width = n;
1067                 return 0;
1068         }
1069         *result = NULL;
1070         *width = 0;
1071         memset(&state, 0, sizeof(state));
1072         num_wchars = mbsrtowcs(NULL, &src, 0, &state);
1073         if (num_wchars == (size_t)-1)
1074                 return -ERRNO_TO_PARA_ERROR(errno);
1075         wcs = arr_alloc(num_wchars + 1, sizeof(*wcs));
1076         memset(&state, 0, sizeof(state));
1077         num_wchars = mbsrtowcs(wcs, &src, num_wchars + 1, &state);
1078         assert(num_wchars != (size_t)-1);
1079         for (n = 0; n < num_wchars && *width < max_width; n++) {
1080                 if (!iswprint(wcs[n]))
1081                         wcs[n] = L' ';
1082                 *width += xwcwidth(wcs[n], *width);
1083         }
1084         wcs[n] = L'\0';
1085         n = wcstombs(NULL, wcs, 0) + 1;
1086         *result = alloc(n);
1087         num_wchars = wcstombs(*result, wcs, n);
1088         assert(num_wchars != (size_t)-1);
1089         free(wcs);
1090         return 1;
1091 }